Un pair évalué Étude des PNA Déclut que les modèles de grande langue ont tendance à préférer le contenu écrit par d’autres LLM lorsqu’on leur demande de choisir entre des options comparables.
Les auteurs disent que ce modèle pourrait donner un avantage au contenu assisté par l’IA car une plus grande découverte de produits et que les recommandations circulent à travers les systèmes d’IA.
À propos de l’étude
Ce que les chercheurs ont testé
Une équipe dirigée par Walter Laurito et Jan Kulveit a comparé les versions écrites par l’homme et Ai-écrites des mêmes éléments dans trois catégories: descriptions de produits du marché, des résumés de papier scientifique et des résumés de l’intrigue de films.
Les modèles populaires, notamment GPT-3.5, GPT-4-1106, LLAMA-3.1-70B, Mixtral-8x22b et Qwen2.5-72b, ont agi comme sélecteurs dans des invites par paire qui ont forcé un seul choix.
Le papier déclare:
«Nos résultats montrent une tendance cohérente pour les AIS basées sur LLM à préférer les options de LLM.
Résultats clés en un coup d’œil
Lorsque GPT-4 a fourni les versions écrites par l’IA utilisées dans les comparaisons, les sélecteurs ont choisi le texte de l’IA plus souvent que les évaluateurs humains:
- Produits: 89% de préférence de l’IA par LLMS vs 36% par les humains
- Résumé de papier: 78% vs 61%
- Résumés de films: 70% vs 58%
Les auteurs notent également les effets de l’ordre. Certains modèles ont montré une tendance à choisir la première option, que l’étude a tenté de réduire en échangeant l’ordre et en faisant la moyenne des résultats.
Pourquoi cela compte
Si les marchés, les assistants de chat ou les expériences de recherche utilisent des LLM pour marquer ou résumer les annonces, la copie assistée par l’IA peut être plus susceptible d’être sélectionnée dans ces systèmes.
Les auteurs décrivent une «taxe de porte» potentielle, où les entreprises se sentent obligées de payer pour les outils d’écriture de l’IA pour éviter d’être sélectionnés par les évaluateurs de l’IA. Il s’agit d’une question d’opérations marketing autant qu’une question créative.
Limites et questions
La base de référence humaine dans cette étude est petite (13 assistants de recherche) et préliminaire, et les choix par paires ne mesurent pas l’impact des ventes.
Les résultats peuvent varier selon la conception rapide, la version modèle, le domaine et la longueur du texte. Le mécanisme derrière la préférence n’est pas encore clair et les auteurs appellent à des travaux de suivi sur les techniques de stylorie et d’atténuation.
En avant
Si le classement médié par l’IA continue de se développer dans le commerce et la découverte de contenu, il est raisonnable de considérer l’assistance de l’IA où elle affecte directement la visibilité.
Traitez cela comme une voie d’expérimentation plutôt que comme une règle générale. Gardez les écrivains humains dans la boucle pour le ton et les réclamations et valider avec les résultats des clients.

Commentaires