L’incitation du personnage « Vous êtes un expert » peut nuire aux performances autant qu’elle aide. Une nouvelle étude montre que l’incitation personnelle améliore l’alignement avec les attentes humaines, mais peut réduire l’exactitude factuelle des tâches gourmandes en connaissances, avec des effets variant selon le type et le modèle de tâche. Ce qu’il faut retenir, c’est que l’incitation personnelle fonctionne mieux sur certains types de tâches que sur d’autres.
Invite de personnalité
Les invites personnelles sont un moyen courant de façonner la réponse des grands modèles de langage, en particulier dans les applications où le ton et l’alignement avec les attentes humaines sont importants. Il est largement utilisé car il améliore la lecture et la sensation des sorties. Compte tenu de l’ampleur de l’incitation personnelle, il peut être surprenant que son effet réel sur les performances reste flou, car des recherches antérieures ont montré des résultats incohérents, jetant le doute sur la question de savoir si elle aide ou nuit.
Les chercheurs ont conclu que l’incitation personnelle n’est ni bénéfique ni nuisible dans l’ensemble, et que son efficacité dépend du type de tâche.
Ils ont trouvé :
- Il améliore les sorties liées à l’alignement telles que la tonalité, le formatage et le comportement de sécurité.
- L’incitation personnelle dégrade les performances sur les tâches qui reposent sur l’exactitude factuelle et le raisonnement
Sur cette base, les auteurs introduisent une méthode appelée PRISM (Persona Routing via Intent-based Self-Modeling), qui applique les personas de manière sélective, en utilisant le routage basé sur l’intention au lieu de traiter les personas comme paramètre par défaut. Leurs résultats montrent que l’incitation personnelle fonctionne mieux en tant qu’outil conditionnel et permet de mieux comprendre quand l’incitation personnelle est utile et quand elle doit être évitée.
Gérer les signaux comportementaux
Dans la troisième section de l’article, les chercheurs affirment que les personnalités expertes ont des « signaux comportementaux utiles », mais que l’utilisation naïve de la personnalité incitée nuit autant qu’elle aide. Selon eux, cela soulève la question de savoir si ces avantages peuvent être séparés des inconvénients et appliqués uniquement là où ils améliorent les résultats.
Les signaux comportementaux influencent la sortie LLM. Ces signaux sont la raison pour laquelle l’incitation à la personnalité fonctionne. Ils entraînent des améliorations du ton, de la structure, du comportement en matière de sécurité et de la manière dont les réponses correspondent aux attentes. Sans eux, l’incitation personnelle ne présenterait aucun avantage.
Pourtant, dans un paradoxe apparent, l’article montre que ces mêmes signaux interfèrent avec les tâches qui dépendent de l’exactitude des faits et du raisonnement. C’est pourquoi le document les traite comme quelque chose à gérer et non à maximiser.
Ces signaux comprennent :
- Adaptation stylistique et correspondance de ton : Adopter une voix professionnelle ou créative.
- Formatage structuré : fourniture de mises en page étape par étape ou techniques.
- Respect du format : aider le modèle à suivre des structures complexes, comme des e-mails professionnels ou des explications STEM étape par étape.
- Suivi d’intention : concentrer le modèle sur l’objectif sous-jacent de l’utilisateur, en particulier dans des tâches telles que l’extraction de données.
- Refus de sécurité : identifier et refuser plus efficacement les demandes nuisibles en adoptant un rôle de « moniteur de sécurité ».
Victoires de l’invite Persona
L’article a révélé que les invites personnelles étaient gagnantes dans cinq catégories de tâches sur huit :
- Extraction : augmentation du score de +0,65.
- STEM : augmentation du score de +0,60.
- Raisonnement : augmentation du score de +0,40.
- Écriture : améliorée grâce à une meilleure adaptation stylistique.
- Jouer le rôle d’un expert du domaine : amélioré grâce à une meilleure correspondance de ton.
L’incitation personnelle a gagné dans les catégories ci-dessus parce qu’elles concernent davantage le style et la clarté que la question de savoir si la réponse est correcte par rapport aux faits et aux connaissances. Ils ont également constaté que plus l’invite du personnage est longue et détaillée, plus l’alignement et les comportements de sécurité deviennent forts.
Échecs des invites personnelles
À l’inverse, le personnage expert a systématiquement dégradé les performances dans les trois catégories restantes (sur huit) parce qu’il s’appuie sur une recherche précise des faits ou une logique stricte plutôt que sur le style et la clarté. La raison de la baisse des performances est que l’ajout d’un personnage expert détaillé « distrait » essentiellement le modèle en activant un « mode de suivi des instructions » qui donne la priorité au ton et au style.
L’activation de personnalités expertes se fait au détriment du « rappel factuel ». Le modèle est tellement concentré à essayer d’agir comme un expert qu’il oublie les informations qu’il a apprises lors de sa formation initiale. Cela explique les baisses de précision des faits et des mathématiques.
Les invites des experts Persona ont obtenu de moins bons résultats dans les trois catégories suivantes :
- Mathématiques
- Codage
- Sciences humaines (connaissances factuelles mémorisées)
Le document note que sur l’un des points de référence des connaissances (MMLU), la précision a chuté d’une base de 71,6 % à 68,0 % même avec le personnage « minimum », et a encore chuté à 66,3 % avec le personnage « long ».
Ils ont expliqué les améliorations en matière de sécurité :
« Des descriptions de personnalité plus détaillées fournissent des informations d’alignement plus riches, amplifiant proportionnellement les comportements d’ajustement des instructions. »
Et a montré pourquoi l’exactitude des faits en prend un coup :
«Persona endommage les tâches de pré-formation
Au cours de la pré-formation, les modèles de langage acquièrent des capacités telles que la mémorisation de connaissances factuelles, la classification, la reconnaissance des relations entre entités et le raisonnement sans tir. Ces capacités sont accessibles sans dépendre du réglage des instructions et peuvent être endommagées par un contexte de suivi d’instructions supplémentaire, tel que les invites d’un expert.
Conclusions atteintes
Les chercheurs concluent que l’incitation personnelle améliore systématiquement les tâches dépendantes de l’alignement telles que l’écriture, les jeux de rôle et les comportements de sécurité, tout en dégradant les performances sur les tâches qui reposent sur des connaissances basées sur la pré-formation, notamment les mathématiques, le codage et les connaissances générales.
Ils ont également constaté que la sensibilité d’un modèle aux personnages évolue avec sa formation. Les modèles plus optimisés pour suivre les instructions sont plus « orientables », ce qui signifie qu’ils bénéficient de la plus grande amélioration en termes de sécurité et de tonalité, mais qu’ils subissent également les plus grandes baisses de précision factuelle.
Points à retenir
1. Soyez sélectif dans l’utilisation des invites personnelles :
- Ne répondez pas par défaut aux invites « Vous êtes un expert »
- Traitez les invitations personnelles comme situationnelles. Son utilisation partout présente des risques cachés en matière de précision.
2. Les invites personnelles sont efficaces pour :
- Qualité d’écriture
- Tonifier
- Formatage et organisation
- Lisibilité
3. Tâches qui ne bénéficient pas d’invites personnelles et doivent plutôt utiliser des invites neutres pour préserver la précision :
- Vérification des faits
- Statistiques
- Explications techniques
- Sorties à forte logique
- Recherche
- Analyse SEO
4. Rappelez-vous ces trois constatations :
- Utilisez les invites personnelles pour générer du contenu, puis passez à une invite non personnelle (ou à un mode plus strict) pour vérifier les faits.
- Les invites « expertes » très détaillées renforcent le ton et la clarté, mais réduisent l’exactitude des faits et des connaissances.
- Les invites « Vous êtes un expert » peuvent amener un modèle à donner la priorité au son correct plutôt qu’au fait d’être correct.
5. Faites correspondre vos invites à la tâche :
- Création de contenu : Persona aide
- Analyse et validation : Persona fait mal
L’approche la plus efficace n’est pas une invite unique, mais un flux de travail qui change d’invite en fonction de la tâche, similaire à l’approche PRISM du chercheur.
Lire le document de recherche :
Les personnalités expertes améliorent l’alignement du LLM mais la précision des dommages : amorcer le routage des personnalités basé sur l’intention avec PRISM
Image en vedette par Shutterstock/ImageFlow

Commentaires