Jeff Dean, scientifique en chef de Google, a déclaré que la faible latence et le faible coût de Flash expliquent pourquoi Google peut exécuter Search AI à grande échelle. La récupération est un choix de conception et non une limitation, a-t-il ajouté.

Dans un interview sur le podcast Latent SpaceDean a expliqué pourquoi Flash est devenu le niveau de production pour Search. Il a également expliqué pourquoi le pipeline qui réduit le Web à une poignée de documents persistera probablement.

Google a commencé à déployer Gemini 3 Flash par défaut pour le mode AI en décembre. L’interview de Dean explique la justification de cette décision.

Pourquoi Flash est le niveau de production

Dean a qualifié la latence de contrainte critique pour l’exécution de l’IA dans la recherche. À mesure que les modèles gèrent des tâches plus longues et plus complexes, la vitesse devient un goulot d’étranglement.

« Il semble vraiment important de disposer de systèmes à faible latence capables de faire cela, et le flash est une direction, une façon d’y parvenir. »

Les animateurs de podcasts ont souligné la domination de Flash sur des services tels que Gmail et YouTube. Dean a déclaré que la recherche faisait partie de cette expansion, avec une utilisation croissante de Flash dans le mode AI et les aperçus de l’IA.

Le flash peut servir à cette échelle grâce à la distillation. Le Flash de chaque génération hérite des performances de niveau Pro de la génération précédente, devenant plus performant sans devenir plus coûteux à exécuter.

« Depuis plusieurs générations de Gemini, nous sommes parvenus à créer une version flash de la prochaine génération aussi bonne, voire nettement meilleure, que la version professionnelle de la génération précédente. »

C’est le mécanisme qui rend l’architecture durable. Google repousse les limites des modèles de développement de capacités, puis distille ces capacités dans Flash pour le déploiement en production. Flash est le niveau que Google a conçu pour fonctionner à l’échelle de la recherche.

Récupération sur mémorisation

Au-delà du rôle de Flash dans la recherche, Dean a décrit une philosophie de conception qui place le contenu externe au cœur du fonctionnement de ces modèles. Les modèles ne devraient pas gaspiller leur capacité à stocker les faits qu’ils peuvent récupérer.

« Le fait que le modèle consacre un espace de paramètres précieux pour mémoriser des faits obscurs qui pourraient être recherchés n’est en fait pas la meilleure utilisation de cet espace de paramètres. »

La récupération à partir de sources externes est une fonctionnalité essentielle et non une solution de contournement. Le modèle examine les choses et examine les résultats plutôt que de tout transporter en interne.

Pourquoi la récupération par étapes persiste probablement

La recherche IA ne peut pas lire l’intégralité du Web en même temps. Les mécanismes d’attention actuels sont quadratiques, ce qui signifie que le coût de calcul augmente rapidement à mesure que la longueur du contexte augmente. Dean a déclaré : « un million de jetons pousse en quelque sorte ce que vous pouvez faire ». Passer à un milliard ou à un billion n’est pas réalisable avec les méthodes existantes.

La vision à long terme de Dean consiste en des modèles qui donnent « l’illusion » de s’occuper de milliards de jetons. Pour y parvenir, il faut de nouvelles techniques, et pas seulement mettre à l’échelle ce qui existe aujourd’hui. D’ici là, la recherche par l’IA continuera probablement à restreindre un large bassin de candidats à une poignée de documents avant de générer une réponse.

Pourquoi c’est important

Le modèle lisant votre contenu en mode IA s’améliore à chaque génération. Mais il est optimisé pour la vitesse plutôt que pour la profondeur du raisonnement, et il est conçu pour récupérer votre contenu plutôt que pour le mémoriser. Être trouvable grâce aux signaux de récupération et de classement existants de Google est la voie vers les résultats de recherche de l’IA.

Nous avons suivi chaque changement de modèle en mode AI et en aperçus d’IA depuis que Google a lancé le mode AI avec Gemini 2.0. Google a expédié Gemini 3 en mode AI le jour de sa sortie, puis a commencé à déployer Gemini 3 Flash par défaut un mois plus tard. Plus récemment, Gemini 3 est devenu la version par défaut pour les aperçus de l’IA à l’échelle mondiale.

Chaque génération de modèle suit le même cycle. Frontière pour la capacité, puis distillation dans Flash pour la production. Dean a présenté cela comme l’architecture que Google s’attend à maintenir à l’échelle de la recherche, et non comme une solution de repli temporaire.

Regarder vers l’avenir

D’après les commentaires de Dean, la récupération par étapes est susceptible de persister jusqu’à ce que les mécanismes d’attention dépassent leurs limites quadratiques. L’investissement de Google dans Flash suggère que l’entreprise prévoit d’utiliser cette architecture sur plusieurs générations de modèles.

Un changement à surveiller est la sélection automatique du modèle. Robby Stein de Google a mentionné le concept précédemment, qui implique le routage de requêtes complexes vers Pro tout en gardant Flash par défaut.


Image en vedette : Robert Way/Shutterstock

Commentaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Se connecter

S’inscrire

Réinitialiser le mot de passe

Veuillez saisir votre identifiant ou votre adresse e-mail. Un lien permettant de créer un nouveau mot de passe vous sera envoyé par e-mail.