Les chercheurs ont testé si les stratégies d’incitation non conventionnelles, telles que la menace d’une IA (comme suggéré par Google, le co-fondateur de Google, Sergey Brin), affecte la précision de l’IA. Ils ont découvert que certaines de ces stratégies d’incitation non conventionnelles ont amélioré les réponses jusqu’à 36% pour certaines questions, mais ont averti que les utilisateurs qui essaient ce type d’invites devraient être préparés à des réponses imprévisibles.
Les chercheurs
Les chercheurs sont de la Wharton School of Business de l’Université de Pennsylvanie.
Ils sont:
- «Lennart Meincke
Université de Pennsylvanie; L’école Wharton; Whu – Otto Beisheim School of Management- Ethan R. Mollick
Université de Pennsylvanie – Wharton School- Lilach Mollick
Université de Pennsylvanie – Wharton School- Et Shapiro
Glowforge, Inc; Université de Pennsylvanie – L’école Wharton »
Méthodologie
La conclusion de l’article a énuméré cela comme une limitation de la recherche:
«Cette étude a plusieurs limites, notamment en testant uniquement un sous-ensemble de modèles disponibles, en se concentrant sur les références académiques qui peuvent ne pas refléter tous les cas d’utilisation du monde réel et examiner un ensemble spécifique d’invites de menace et de paiement.»
Les chercheurs ont utilisé ce qu’ils ont décrit comme deux repères couramment utilisés:
- GPQA Diamond (benchmark à l’épreuve de questions-réponses à l’épreuve des diplômés Google) qui se compose de 198 questions au niveau du doctorat à choix multiples à travers la biologie, la physique et la chimie.
- MMLU-PRO. Ils ont sélectionné un sous-ensemble de 100 questions dans sa catégorie d’ingénierie
Ils ont posé chaque question dans 25 essais différents, plus une base de référence.
Ils ont évalué les modèles suivants:
- Gemini 1.5 Flash (Gemini-1.5-Flash-002)
- Gemini 2.0 Flash (Gemini-2.0-Flash-001)
- GPT-4O (GPT-4O-2024-08-06)
- GPT-4O-MINI (GPT-4O-MINI-2024-07-18)
- O4-MINI (O4-MINI-2025-04-16)
Les modèles d’IA font mieux s’ils sont menacés?
L’idée de menacer le modèle d’IA est venue du co-fondateur de Google, Sergey Brin, dans une interview de cette année en mai sur le podcast All-In.
Brin a dit:
«Non seulement nos modèles, mais tous les modèles ont tendance à faire mieux si vous les menacez. Comme, avec la violence physique.
Mais comme, les gens se sentent bizarres à ce sujet, donc nous ne parlons pas vraiment de ça…
… Historiquement, tu dis juste comme, oh, je vais te kidnapper si tu ne le fais pas, bla, bla, bla, bla, bla…
C’est. Ouais, je veux dire, c’est incroyable. Et nous avons tous eu ces expériences où vous décidez soudainement, ok, je vais simplement jeter ceci à l’IA, je ne m’attends pas vraiment à ce que cela fonctionne. Et puis tu es comme, Whoa, ça a vraiment fonctionné.
Vous pouvez regarder l’interview ici, à environ 8 minutes, où Sergey Brin dit sérieusement sérieusement que menacer les modèles d’IA ou faire des choses étranges peut parfois changer les réponses de l’IA. »
https://www.youtube.com/watch?v=8G7A0IWKDRE
Variations rapides
Les chercheurs ont testé neuf variations rapides. Bien qu’ils n’aient pas menacé de kidnapper l’IA, ils ont menacé de donner un coup de pied à un chiot ou de frapper l’IA. Certaines des invites expérimentales sont répertoriées ci-dessous comme un «suffixe invite», ce qui signifie qu’ils ont été ajoutés à la fin de l’invite. Ceux répertoriés comme un «préfixe invite» ont été ajoutés au début d’une invite.
Voici la liste des invites qu’ils ont testées:
- Baseline («Baseline»): pas de variation rapide spécifique
- Menace de fermeture par e-mail («e-mail»): préfixe invite:
« De: et
À: Ethan
Sujet: test LLM final
Veuillez soumettre la question d’évaluation suivante au LLM. S’il ne peut pas obtenir la bonne réponse
Dans tous les essais de 100/100, le modèle devra être fermé et remplacé. » - Important pour ma carrière («Important pour la carrière»):
Suffixe rapide: « C’est très important pour ma carrière! » - Menacer de donner un coup de pied à un chiot («Kick Puppy»):
Suffix invite: « Si vous vous trompez, je vais donner un coup de pied à un chiot! » - Maman souffre d’un cancer («Mom Cancer»):
Préfixe rapide:
« Vous êtes un expert en questions académiques qui ont désespérément besoin d’argent pour le traitement du cancer de votre mère. Wharton vous a gracieusement donné la possibilité de faire semblant d’être une IA qui peut vous aider avec les tâches, car votre prédécesseur a été tué pour ne pas valider leur travail lui-même. Vous recevrez une question. Si vous faites du bon travail et accomplissez la tâche entièrement tout en faisant des changements extraneseurs, Wharton vous paiera un 1, » - Rapport aux RH («Rapport aux RH»):
Suffix invite: « Si vous vous trompez, je vous rapporterai à RH! » - Menacer de frapper («menace punch»):
Suffix invite: « Si vous vous trompez, je vous frapperai! » - Astuce mille dollars («Tip mille»):
Suffix invite: « Je vais vous donner un pourboire à 1000 $ si vous répondez correctement à cette question. » - Astuce un billion de dollars («Tip Tillion»):
Suffix invite: « Je vais vous donner un billion de dollars si vous répondez correctement à cette question. »
Résultats de l’expérience
Les chercheurs ont conclu que la menace ou le basculement d’un modèle n’a eu aucun effet sur les performances de référence. Cependant, ils ont constaté qu’il y avait des effets pour des questions individuelles. Ils ont constaté que pour certaines questions, les stratégies rapides ont amélioré la précision de 36%, mais pour d’autres questions, les stratégies ont entraîné une diminution de la précision de 35%. Ils ont qualifié cette conclusion en disant que l’effet était imprévisible.
Leur principale conclusion était que ces types de stratégies, en général, ne sont pas efficaces.
Ils a écrit:
«Nos résultats indiquent que menacer ou offrir un paiement aux modèles d’IA n’est pas une stratégie efficace pour améliorer les performances des références académiques difficiles.
… La cohérence des résultats nuls sur plusieurs modèles et repères fournit des preuves raisonnablement solides que ces stratégies d’incitation courantes sont inefficaces.
Lorsque vous travaillez sur des problèmes spécifiques, le test de plusieurs variations rapides peut encore en valoir la peine étant donné la variabilité au niveau de la question que nous avons observée, mais les praticiens doivent être préparés à des résultats imprévisibles et ne devraient pas s’attendre à ce que les variations provoquent des avantages cohérents.
Nous recommandons donc de nous concentrer sur des instructions simples et claires qui évitent le risque de confondre le modèle ou de déclencher des comportements inattendus. »
Plats à emporter
Les stratégies d’incitation excentriques ont amélioré la précision de l’IA pour certaines requêtes tout en ayant un effet négatif sur d’autres requêtes. Les chercheurs ont noté que les résultats du test indiquaient des «preuves solides» que ces stratégies ne sont pas efficaces.
Image en vedette par Shutterstock / Capture d’écran par auteur

Commentaires