Google a annoncé un nouvel algorithme de récupération multi-vecteur appelé Muvera qui accélère la récupération et le classement, et améliore la précision. L’algorithme peut être utilisé pour la recherche, les systèmes de recommandation (comme YouTube) et pour le traitement du langage naturel (PNL).
Vector Intrège dans la recherche
L’intégration des vecteurs est une représentation multidimensionnelle des relations entre les mots, les sujets et les phrases. Il permet aux machines de comprendre la similitude grâce à des modèles tels que des mots qui apparaissent dans le même contexte ou les mêmes phrases qui signifient les mêmes choses. Des mots et des phrases qui sont des espaces d’occupation liés qui se rapprochent les uns des autres.
- Les mots «King Lear» seront proches de l’expression «tragédie de Shakespeare».
- Les mots «A Midsummer Night’s Dream» occuperont un espace près de «Shakespeare Comedy».
- «King Lear» et «A Midsummer Night’s Dream» seront situés dans un espace près de Shakespeare.
Les distances entre les mots, les phrases et les concepts (techniquement une mesure de similitude mathématique) définissent à quel point chacun est lié à l’autre. Ces modèles permettent à une machine de déduire des similitudes entre elles.
Muvera résout le problème inhérent des intérêts multi-vecteurs
Le document de recherche Muvera indique que les intérêts neuronaux sont une caractéristique de la recherche d’informations depuis dix ans et cite le document de recherche de modèle multi-vecteur Colbert de 2020 comme une percée, mais qui dit qu’il souffre d’un goulot d’étranglement qui le rend moins qu’idéal.
«Récemment, en commençant par le papier Landmark Colbert, les modèles multi-vecteurs, qui produisent un ensemble d’intégration par point de données, ont atteint des performances nettement supérieures aux tâches IR. Malheureusement, l’utilisation de ces modèles pour l’IR est coûteux en raison de la complexité accrue de la récupération et de la notation multi-vecteurs.»
L’annonce par Google de Muvera fait écho à ces inconvénients:
«… Les avancées récentes, en particulier l’introduction de modèles multi-vecteurs comme Colbert, ont démontré des performances considérablement améliorées dans les tâches IR. Bien que cette approche multi-vecteurs stimule la précision et permet à la récupération de documents plus pertinents, il introduit des défis de calcul substantiels. En particulier, le nombre accru de complexes et la complexité de la similitude multi-vecteurs rendent la récupération significativement plus chère.».
Cela pourrait être un successeur de la technologie Rankembed de Google?
Le procès antitrust du ministère de la Justice des États-Unis (DOJ) a abouti à un témoignage qui a révélé que l’un des signaux utilisés pour créer les pages de résultats du moteur de recherche (SERP) est appelé Rankembed, qui a été décrit comme ceci:
«Rankembed est un modèle à double codeur qui intègre à la fois la requête et le document dans l’espace d’intégration. L’espace d’intégration considère les propriétés sémantiques de la requête et du document en plus des autres signaux. La récupération et le classement sont alors un produit DOT (mesure de distance dans l’espace d’intégration)… extrêmement rapide; haute qualité sur les requêtes communes mais peut effectuer une mauvaise mesure pour les requêtes d’intégration…»
Muvera est un progrès technique qui aborde les performances et les limites de mise à l’échelle des systèmes multi-vecteurs, qui sont eux-mêmes un pas au-delà des modèles à double enregistrement (comme Rankembed), offrant une plus grande profondeur sémantique et une manipulation des performances de la requête de queue.
La percée est une technique appelée codage dimensionnel fixe (FDE), qui divise l’espace d’incorporation en sections et combine les vecteurs qui tombent dans chaque section pour créer un seul vecteur de longueur fixe, ce qui rend plus rapide de rechercher que de comparer plusieurs vecteurs. Cela permet à des modèles multi-vecteurs d’être utilisés efficacement à grande échelle, améliorant la vitesse de récupération sans sacrifier la précision qui vient de la représentation sémantique plus riche.
Selon l’annonce:
«Contrairement à des incorporations à vecteur unique, les modèles multi-vecteurs représentent chaque point de données avec un ensemble d’incorporation et tirent parti des fonctions de similitude plus sophistiquées qui peuvent saisir des relations plus riches entre les points de données.
Bien que cette approche multi-vecteurs stimule la précision et permet de récupérer des documents plus pertinents, il introduit des défis de calcul substantiels. En particulier, l’augmentation du nombre d’incorporation et la complexité de la notation de la similitude multi-vecteurs rendent la récupération beaucoup plus coûteuse.
Dans « Muvera: récupération multi-vecteurs via des encodages dimensionnels fixes », nous introduisons un nouvel algorithme de récupération multi-vecteur conçu pour combler l’écart d’efficacité entre la récupération à un et multi-vecteur.
… Cette nouvelle approche nous permet de tirer parti des algorithmes MIPS hautement optimisés pour récupérer un ensemble initial de candidats qui peuvent ensuite être classés avec la similitude multi-vecteurs exacts, permettant ainsi une récupération multi-vecteurs efficace sans sacrifier la précision. »
Les modèles multi-vecteurs peuvent fournir des réponses plus précises que les modèles à double encodeur, mais cette précision se fait au prix des demandes de calcul intensives. Muvera résout les problèmes de complexité des modèles multi-vecteurs, créant ainsi un moyen d’atteindre une plus grande précision des approches multi-vecteurs sans les demandes informatiques élevées.
Qu’est-ce que cela signifie pour le référencement?
Muvera montre comment le classement de recherche moderne dépend de plus en plus des jugements de similitude plutôt que des signaux de mots clés à l’ancienne sur lesquels les outils de référencement et les SEO sont souvent axés. Les SEO et les éditeurs peuvent souhaiter déplacer leur attention d’une expression exacte correspondant à l’alignement sur le contexte global et l’intention de la requête. Par exemple, lorsque quelqu’un recherche des «vestes en velours côtelé le médium pour hommes», un système utilisant la récupération de type Muvera est plus susceptible de classer des pages qui offrent réellement ces produits, et non des pages qui mentionnent simplement les «vestes en velours côtelé» et incluent le mot «médium» dans le but de faire correspondre la requête.
Lire l’annonce de Google:
MUVERA: Faire de la récupération multi-vecteurs aussi rapidement que la recherche à vecteur unique
Image en vedette par Shutterstock / Bluestork

Commentaires