Gary Illyes de Google a confirmé que le contenu d’IA était bien tant que la qualité est élevée. Il a dit que «l’homme créé» n’est pas précisément la bonne façon de décrire leur politique de contenu d’IA, et qu’une description plus précise serait «organisée par l’homme».

Les questions ont été posées par Kenichi Suzuki dans le contexte d’une interview exclusive avec Illyes.

Présentation de l’IA et modèles en mode IA

Kenichi a posé des questions sur les modèles d’IA utilisés pour les aperçus de l’IA et le mode IA, et il a répondu que ce sont des modèles de gemini personnalisés.

Illyes a répondu:

« Donc, comme vous l’avez noté, le modèle que nous utilisons pour AIO (pour les aperçus de l’IA) et pour le mode IA est un modèle de gemini personnalisé et cela pourrait signifier qu’il a été formé différemment. Je ne connais pas les détails exacts, comment il a été formé, mais c’est définitivement un modèle personnalisé. »

Kenichi a ensuite demandé si les aperçus de l’IA (AIO) et le mode AI utilisent des index distincts pour la mise à la terre.

La mise à la terre est l’endroit où un LLM connectera les réponses à une base de données ou à un index de recherche afin que les réponses soient plus fiables, véridiques et basées sur des faits vérifiables, contribuant à réduire les hallucinations. Dans le contexte du mode AIO et de l’IA, la mise à la terre se produit généralement avec les données Web de l’index de Google.

Suzuki a demandé:

«Donc, cela signifie-t-il que les aperçus de l’IA et le mode IA utilisent des index séparés pour la mise à la terre?»

Ilyes de Google a répondu:

« Pour autant que je sache, les Gemini, la vue d’ensemble et le mode AI utilisent tous la recherche Google pour la mise à la terre. Donc, en gros, ils émettent plusieurs requêtes pour la recherche Google, puis Google Recherche renvoie les résultats pour ces requêtes particulières. »

Kenichi essayait d’obtenir une réponse concernant le robot de Google étendu, et la réponse d’Illyes a été d’expliquer quand le robot d’exploitation étendu de Google entre en jeu.

« Cela signifie-t-il donc que les données de formation sont utilisées par le mode AIO et AI collectées par Google régulier et non Google Extended? »

Et Illyes a répondu:

« Vous devez vous rappeler que lorsque la mise à la terre se produit, il n’y a pas d’IA impliquée. Donc, fondamentalement, c’est la génération qui est affectée par le Google étendu. Mais aussi si vous interdisez Google étendu, Gemini ne va pas fonder pour votre site. »

Contenu AI dans les LLM et l’index de recherche

La question suivante à laquelle les Illyes répondaient concernaient si le contenu de l’IA publié en ligne est de polluer les LLM. Illyes a déclaré que ce n’est pas un problème avec l’index de recherche, mais que cela peut être un problème pour les LLM.

Question de Kenichi:

«Comme plus de contenu est créé par l’IA, et que les LLM apprennent de ce contenu. Quelles sont vos réflexions sur cette tendance et quels sont ses inconvénients potentiels?»

Illyes a répondu:

«Je ne suis pas inquiet de l’index de recherche, mais la formation des modèles doit définitivement comprendre comment exclure le contenu généré par l’IA. Sinon, vous vous retrouvez dans une boucle de formation qui n’est vraiment pas idéal pour la formation. Je ne sais pas combien de problème c’est en ce moment, ou peut-être parce que nous sélectionnons les documents sur lesquels nous nous entraînons.»

Qualité de contenu et contenu généré par l’IA

Suzuki a ensuite suivi une question sur la qualité du contenu et l’IA.

Il a demandé:

« Donc, vous ne vous souciez pas de la façon dont le contenu est créé … donc tant que la qualité est élevée? »

Illyes a confirmé qu’une considération de premier plan pour les données de formation LLM est la qualité du contenu, quelle que soit la façon dont elle a été générée. Il a spécifiquement cité la précision factuelle du contenu comme facteur important. Un autre facteur qu’il a mentionné est que la similitude du contenu est problématique, affirmant que le contenu «extrêmement» similaire ne devrait pas être dans l’index de recherche.

Il a également déclaré que Google ne se soucie essentiellement pas de la façon dont le contenu est créé, mais avec quelques mises en garde:

«Bien sûr, mais si vous pouvez maintenir la qualité du contenu et la précision du contenu et vous assurer qu’elle est de haute qualité, alors techniquement, cela n’a pas vraiment d’importance.

Le problème commence à survenir lorsque le contenu est soit extrêmement similaire à quelque chose qui a déjà été créé, ce qui, espérons-le, nous n’aurons pas dans notre index pour nous entraîner de toute façon.

Et puis le deuxième problème est lorsque vous vous entraînez sur des données inexactes et c’est probablement la plus risquée, car vous commencez alors à introduire des biais et qu’ils commencent à introduire des données contrefactuelles dans vos modèles.

Tant que la qualité du contenu est élevée, ce qui nécessite généralement de nos jours que l’humain passe en revue le contenu généré, il est bien pour la formation des modèles. »

Humain examiné le contenu généré par l’IA

Illyes a poursuivi sa réponse, cette fois en se concentrant sur le contenu généré par l’IA qui est examiné par un humain. Il met l’accent sur la revue humaine non pas comme quelque chose que les éditeurs doivent signaler dans leur contenu, mais comme quelque chose que les éditeurs devraient faire avant de publier le contenu.

Encore une fois, «révision sur l’homme» ne signifie pas l’ajout de libellé sur une page Web que le contenu est examiné par l’homme; Ce n’est pas un signal digne de confiance, et ce n’est pas ce qu’il a suggéré.

Voici ce qu’Allyes a dit:

«Je ne pense pas que nous allons changer nos conseils de sitôt si vous devez l’examiner ou non.

Donc, fondamentalement, quand nous disons que c’est humain, je pense que le mot créé par l’homme est faux. Fondamentalement, il doit être organisé humain. Donc, fondamentalement, quelqu’un a eu une surveillance éditoriale sur son contenu et a validé qu’il était en fait correct et précis. »

Plats à emporter

La politique de Google, telle que résumé par Gary Illyes, est que le contenu généré par l’IA est bien pour la recherche et la formation de modèle s’il est factuellement précis, original et examiné par les humains. Cela signifie que les éditeurs doivent appliquer la surveillance éditoriale pour valider la précision factuelle du contenu et s’assurer qu’elle n’est pas «extrêmement» similaire au contenu existant.

Regardez l’interview:

https://www.youtube.com/watch?v=pstff6tcqxk

Image en vedette par Shutterstock / Supatman

Commentaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Se connecter

S’inscrire

Réinitialiser le mot de passe

Veuillez saisir votre identifiant ou votre adresse e-mail. Un lien permettant de créer un nouveau mot de passe vous sera envoyé par e-mail.