Google a annoncé une mise à jour de sa recherche vocale, qui modifie la façon dont les requêtes de recherche vocale sont traitées puis classées. Le nouveau modèle d’IA utilise la parole comme entrée pour le processus de recherche et de classement, contournant complètement l’étape de conversion de la voix en texte.
L’ancien système s’appelait Cascade ASR, où une requête vocale est convertie en texte puis soumise au processus de classement normal. Le problème avec cette méthode est qu’elle est sujette aux erreurs. Le processus de conversion audio en texte peut perdre certains indices contextuels, ce qui peut alors introduire une erreur.
Le nouveau système s’appelle Speech-to-Retrieval (S2R). Il s’agit d’un modèle d’apprentissage automatique basé sur un réseau neuronal, entraîné sur de grands ensembles de données de requêtes audio et de documents appariés. Cette formation lui permet de traiter des requêtes de recherche vocales (sans les convertir en texte) et de les associer directement aux documents pertinents.
Modèle à double encodeur : deux réseaux de neurones
Le système utilise deux réseaux de neurones :
- L’un des réseaux neuronaux, appelé encodeur audio, convertit les requêtes vocales en une représentation spatiale vectorielle de leur signification.
- Le deuxième réseau, l’encodeur de documents, représente les informations écrites dans le même type de format vectoriel.
Les deux encodeurs apprennent à mapper les requêtes vocales et les documents texte dans un espace sémantique partagé afin que les documents audio et texte associés se retrouvent rapprochés en fonction de leur similarité sémantique.
Encodeur audio
Speech-to-Retrieval (S2R) prend l’audio de la requête vocale d’une personne et le transforme en un vecteur (chiffres) qui représente la signification sémantique de ce que la personne demande.
L’annonce utilise l’exemple du célèbre tableau Le Cri d’Edvard Munch. Dans cet exemple, l’expression prononcée « la peinture du cri » devient un point dans l’espace vectoriel à proximité d’informations sur Le Cri d’Edvard Munch (comme le musée dans lequel il se trouve, etc.).
Encodeur de documents
L’encodeur de documents fait la même chose avec les documents texte tels que les pages Web, en les transformant en leurs propres vecteurs qui représentent le sujet de ces documents.
Au cours de la formation du modèle, les deux encodeurs apprennent ensemble, de sorte que les vecteurs permettant de faire correspondre les requêtes audio et les documents se retrouvent proches l’un de l’autre, tandis que les vecteurs non liés sont éloignés les uns des autres dans l’espace vectoriel.
Représentation vectorielle riche
L’annonce de Google indique que les encodeurs transforment l’audio et le texte en « riches représentations vectorielles ». Une représentation vectorielle riche est une intégration qui code le sens et le contexte de l’audio et du texte. On l’appelle « riche » car il contient l’intention et le contexte.
Pour S2R, cela signifie que le système ne s’appuie pas sur la correspondance de mots clés ; il « comprend » conceptuellement ce que demande l’utilisateur. Ainsi, même si quelqu’un dit « montrez-moi le maquillage hurlant de Munch », la représentation vectorielle de cette requête se retrouvera toujours à proximité des documents sur Le Cri.
Selon l’annonce de Google :
« La clé de ce modèle réside dans la manière dont il est formé. À l’aide d’un vaste ensemble de données de requêtes audio appariées et de documents pertinents, le système apprend à ajuster simultanément les paramètres des deux encodeurs.
L’objectif de formation garantit que le vecteur d’une requête audio est géométriquement proche des vecteurs de ses documents correspondants dans l’espace de représentation. Cette architecture permet au modèle d’apprendre quelque chose de plus proche de l’intention essentielle requise pour la récupération directement à partir de l’audio, en contournant la fragile étape intermédiaire de transcription de chaque mot, qui constitue la principale faiblesse de la conception en cascade.
Couche de classement
S2R dispose d’un processus de classement, tout comme la recherche textuelle classique. Lorsqu’une personne prononce une requête, l’audio est d’abord traité par l’encodeur audio pré-entraîné, qui le convertit en une forme numérique (vecteur) qui capture ce que la personne veut dire. Ce vecteur est ensuite comparé à l’index de Google pour trouver les pages dont la signification est la plus similaire à la requête vocale.
Par exemple, si quelqu’un dit « la peinture du cri », le modèle transforme cette phrase en un vecteur qui représente sa signification. Le système parcourt ensuite son index de documents et trouve les pages dont les vecteurs correspondent étroitement, comme des informations sur Le Cri d’Edvard Munch.
Une fois ces correspondances probables identifiées, une étape de classement distincte prend le relais. Cette partie du système combine les scores de similarité de la première étape avec des centaines d’autres signaux de classement en termes de pertinence et de qualité afin de décider quelles pages doivent être classées en premier.
Analyse comparative
Google a testé le nouveau système par rapport à Cascade ASR et à une version à score parfait de Cascade ASR appelée Cascade Groundtruth. S2R a battu Cascade ASR et a presque égalé Cascade Groundtruth. Google a conclu que les performances sont prometteuses mais qu’il reste encore place à l’amélioration.
La recherche vocale est en ligne
Bien que l’analyse comparative ait révélé qu’il y avait place à l’amélioration, Google a annoncé que le nouveau système était opérationnel et utilisé dans plusieurs langues, le qualifiant d’une nouvelle ère dans la recherche. Le système est vraisemblablement utilisé en anglais.
Google explique :
« La recherche vocale est désormais alimentée par notre nouveau moteur Speech-to-Retrieval, qui obtient des réponses directement à partir de votre requête vocale sans avoir à la convertir au préalable en texte, ce qui permet une recherche plus rapide et plus fiable pour tout le monde. »
En savoir plus:
Speech-to-Retrieval (S2R) : Une nouvelle approche de la recherche vocale
Image en vedette par Shutterstock/ViDI Studio

Commentaires