Un marketing de recherche aux yeux vifs a découvert la raison pour laquelle les aperçus de l’IA de Google ont montré des pages Web Spammy. L’opinion récente du mémorandum dans l’affaire Google Antitrust a présenté un passage qui offre un indice sur la raison pour laquelle cela s’est produit et spécule comment il reflète l’éloignement de Google des liens comme facteur de classement important.

Ryan Jones, fondateur de Serprecon (Profil LinkedIn), attiré l’attention sur un passage dans le récent opinion du mémorandum qui montre comment Google fonde ses modèles Gemini.

Mise à la terre des réponses génératives d’IA

Le passage se produit dans une section sur la mise à la terre des réponses avec les données de recherche. Habituellement, il est juste de supposer que les liens jouent un rôle dans le classement des pages Web qu’un modèle d’IA récupère d’une requête de recherche vers un moteur de recherche interne. Ainsi, lorsque quelqu’un pose des aperçus de l’IA de Google, le système interroge Google Search, puis crée un résumé à partir de ces résultats de recherche.

Mais apparemment, ce n’est pas ainsi que cela fonctionne chez Google. Google a un algorithme séparé qui récupère moins de documents Web et le fait à un rythme plus rapide.

Le passage se lit comme suit:

«Pour fonder ses modèles Gemini, Google utilise une technologie propriétaire appelée FastSearch. Rem. Tr. À 3509: 23–3511: 4 (Reid). FastSearch est basé sur des signaux de base de rangs – un ensemble de signaux de classement de recherche – et génère une recherche abrégée plus rapidement que la recherche, car il se rétracte, car il se rétracte des documents de recherche FastSearch, les difficultés résultent plus rapidement que la recherche car elle se rétracte car elle se rétracte des documents à la recherche de DICTUSS, la recherche FastSearche Résultats Web inférieurs à la recherche entièrement classés. »

Ryan Jones a partagé ces idées:

«C’est intéressant et confirme à la fois ce que beaucoup d’entre nous ont pensé et ce que nous voyions dans les premiers tests. Qu’est-ce que cela signifie?

… Il y a probablement un tas de spam et de signaux de qualité qui ne sont pas calculés pour FastSearch non plus. Cela expliquerait comment / pourquoi dans les premières versions, nous avons vu des sites de spam et même des sites pénalisés apparaissant dans les aperçus de l’IA. »

Il continue en partageant son opinion selon laquelle les liens ne jouent pas ici un rôle parce que la mise à la terre utilise la pertinence sémantique.

Qu’est-ce que FastSearch?

Ailleurs, le mémorandum partage que FastSearch génère des résultats de recherche limités:

« FastSearch est une technologie qui génère rapidement des résultats de recherche organiques limités pour certains cas d’utilisation, tels que la mise à la terre des LLM, et est principalement dérivé du modèle Rankembed. »

Maintenant, la question est, quel est le modèle Rankembed?

Le mémorandum explique que Rankembed est un modèle d’apprentissage en profondeur. En termes simples, un modèle d’apprentissage en profondeur identifie les modèles dans des ensembles de données massifs et peut, par exemple, identifier les significations et les relations sémantiques. Il ne comprend rien de la même manière qu’un humain le fait; Il identifie essentiellement les modèles et les corrélations.

Le mémorandum a un passage qui explique:

«À l’autre extrémité du spectre se trouvent des modèles innovants d’apprentissage en profondeur, qui sont des modèles d’apprentissage en machine qui discernent des modèles complexes dans de grands ensembles de données.… (Allan)

… Google a développé divers signaux de niveau «de haut niveau» qui contribuent à la production du score final pour une page Web. Identifiant. à 2793: 5-2794: 9 (Allan) (discutant du RDXD-20.018). Parmi les signaux de haut niveau de Google figurent ceux qui mesurent la qualité et la popularité d’une page Web. Identifiant.; RDX0041 à -001.

Les signaux développés grâce à des modèles d’apprentissage en profondeur, comme Rankembed, sont également parmi les signaux de haut niveau de Google. »

Données côté utilisateur

Rankembed utilise des données «côté utilisateur». Le mémorandum, dans une section sur le type de données que Google devrait fournir aux concurrents, décrit Rankembed (sur lequel FastSearch est basé) de cette manière:

« Les données côté utilisateur utilisées pour former, construire ou exploiter le (s) modèle (s) Rankembed; »

Ailleurs, il partage:

« Rankembed et son itération ultérieure Rankembert sont des modèles de classement qui reposent sur deux principales sources de données: _____% des 70 jours de journaux de recherche plus les scores générés par les évaluateurs humains et utilisés par Google pour mesurer la qualité des résultats de recherche organiques. »

Alors:

«Le modèle Rankembed lui-même est un système d’apprentissage en profondeur basé sur l’IA qui a une forte compréhension en langue naturelle.

… Rankembed est formé sur le 1 / 100e des données utilisées pour former des modèles de classement antérieurs tout en fournissant des résultats de recherche de meilleure qualité.

… Rankembed a particulièrement aidé Google à améliorer ses réponses aux requêtes à longue queue.

… Parmi les données de formation sous-jacentes figurent des informations sur la requête, y compris les termes saillants que Google a dérivés de la requête et des pages Web qui en résultent.

… Les données sous-jacentes aux modèles Rankembed sont une combinaison de données de clic et de requête et de notation des pages Web par les évaluateurs humains.

… Rankembert doit être recyclé pour refléter de nouvelles données… »

Une nouvelle perspective sur la recherche d’IA

Est-il vrai que les liens ne jouent pas de rôle dans la sélection des pages Web pour les aperçus de l’IA? La recherche rapide de Google priorise la vitesse. Ryan Jones théorise que cela pourrait signifier que Google utilise plusieurs index, avec un spécifique à FastSearch composé de sites qui ont tendance à obtenir des visites. Cela peut être le reflet de la partie Rankembed de FastSearch, qui serait une combinaison de «données de clic et de requête» et de données sur les évaluateurs humains.

En ce qui concerne les données des évaluateurs humains, avec des milliards ou des milliards de pages dans un indice, il serait impossible pour les évaluateurs d’évaluer manuellement plus d’une petite fraction. Il s’ensuit donc que les données des évaluateurs humains sont utilisées pour fournir des exemples marqués de qualité pour la formation. Les données étiquetées sont des exemples sur lesquels un modèle est formé afin que les modèles inhérents à l’identification d’une page de haute qualité ou d’une page de faible qualité puissent devenir plus apparentes.

Image en vedette par Shutterstock / Cookie Studio

Commentaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Se connecter

S’inscrire

Réinitialiser le mot de passe

Veuillez saisir votre identifiant ou votre adresse e-mail. Un lien permettant de créer un nouveau mot de passe vous sera envoyé par e-mail.