Un contenu plus court et ciblé gagne dans ChatGPT

Améliorez vos compétences grâce aux informations hebdomadaires d’experts de Growth Memo. Abonnez-vous gratuitement!

Pendant des années, les référenceurs ont fonctionné sur une hypothèse simple : plus votre contenu couvre de terrain, plus il est susceptible d’apparaître dans les réponses générées par l’IA. En fait, chaque « meilleure pratique » du contenu SEO classique vous pousse vers plus : plus de sous-thèmes, plus de sections, plus de mots. Construisez le « guide ultime ».

Une analyse de 815 000 paires de pages de requête sur 16 851 requêtes et 353 799 pages indique le contraire :

La couverture en diffusion n’a presque aucun rapport avec les taux de citation.
Deux signaux prédisent en fait si ChatGPT cite votre page.
Six changements concrets apportés à votre bibliothèque de contenu existante vous aident.

1. L’étude

AirOps a exécuté 16 851 requêtes via ChatGPT trois fois chacune via l’interface utilisateur, capturant chaque sous-requête de diffusion, chaque URL recherchée, chaque citation faite et chaque page supprimée. Oshen Davidson a construit le pipeline. J’ai analysé les données.

Chaque requête génère en moyenne deux requêtes de diffusion. ChatGPT récupère environ 10 URL par sous-recherche, les lit, puis sélectionne lesquels citer. Nous avons évalué dans quelle mesure les sous-titres H2-H4 de chaque page correspondaient à ces requêtes de diffusion en utilisant la similarité cosinus sur les intégrations bge-base-en-v1.5. Ce score est ce que nous appelons couverture en éventail: la part de sous-thèmes abordés par une page à un seuil de similarité de 0,80. (Le seuil de similarité de 0,80 a été utilisé pour décider si un sous-titre compte comme une correspondance avec une requête distribuée. Considérez-le comme une barre de pertinence.)

La question : les pages avec une couverture de diffusion plus élevée sont-elles davantage citées ?

Vous trouverez encore plus d’informations dans le document co-écrit Rapport AirOps.

2. La densité fait à peine bouger l’aiguille

Sur 815 484 lignes, la relation entre la couverture en diffusion et la citation est faible.

Couvrir 100 % des sous-thèmes ajoute 4,6 points de pourcentage par rapport à aucun. Cet écart se réduit encore davantage lorsque vous contrôlez la correspondance de la requête (dans quelle mesure le meilleur titre de la page correspond à la requête d’origine). Parmi les pages avec une forte correspondance de requête (similarité cosinus >= 0,80) :

Crédit image : Kevin Indig

Une couverture modérée (26 à 50 %) surpasse une couverture exhaustive. Les pages qui couvrent tout obtiennent un score inférieur à celui des pages qui couvrent un quart des sous-thèmes. La stratégie du « guide ultime » produit de pires résultats qu’un article ciblé qui couvre bien deux à trois angles liés.

3. Qu’est-ce qui prédit réellement la citation

Ces deux signaux dominent : le classement de récupération et la correspondance de requête.

1. Rang de récupération est de loin le prédicteur le plus puissant. Une page en position 0 dans les résultats de recherche Web de ChatGPT (la première URL renvoyée par son outil de recherche) a un taux de citation de 58 %. En position 10, cela tombe à 14 %. Nous avons exécuté chaque invite trois fois de suite pour cette analyse, et les pages citées dans les trois exécutions ont un classement médian de récupération de 2,5. Pages jamais citées : rang médian 13.

Crédit image : Kevin Indig

2. Correspondance de requête (la similarité cosinusoïdale entre la requête et le meilleur titre de la page) est le signal de contenu le plus fort. Les pages avec une correspondance de titre de 0,90+ ont un taux de citation de 41 %, contre 30 % pour les pages inférieures à 0,50. Même parmi les pages les mieux classées (position 0-2), une correspondance de requête plus élevée ajoute 19 points de pourcentage.

Couverture de diffusion, nombre de mots, nombre de titres, autorité de domaine : tous secondaires. Certains sont plats. Certains sont inversement corrélés.

4. L’exception Wikipédia

Un type de site brise le modèle. Wikipédia a le pire classement de récupération de l’ensemble de données (médiane 24) et le score de correspondance de requête le plus bas (0,576). Il atteint toujours le taux de citation le plus élevé : 59 %.

Les pages Wikipédia contiennent en moyenne 4 383 mots, 31 listes et 6,6 tableaux. Ils sont encyclopédiques au sens littéral. ChatGPT cite Wikipédia au plus profond des résultats de recherche, où tous les autres types de sites sont ignorés.

Cette densité fonctionne comme un signal, mais à une échelle qu’aucun éditeur ne peut reproduire. Le contenu de Wikipédia est exhaustif, richement structuré et relié à des millions de sujets. Un article de blog d’entreprise de 3 000 mots avec 15 sous-titres n’est pas la même chose.

5. La réalité bimodale

58% des pages récupérées par ChatGPT dans cet ensemble de données ne sont jamais citées. 25% sont toujours cités lors de leur parution. Seulement 17 % se situent entre les deux.

Les groupes toujours cités et jamais cités semblent presque identiques sur la plupart des mesures de contenu : nombre de mots similaires (~ 2 200), nombre de titres similaires (~ 20), scores de lisibilité similaires (~ 12 notes FK), autorité de domaine similaire (~ 54). Les signaux sur la page que nous pouvons mesurer ne séparent pas les gagnants des perdants.

Ce qui les sépare, c’est le rang de récupération. Les pages toujours citées se classent en haut lorsqu’elles apparaissent. Les pages jamais citées se classent dans la moitié inférieure. Le système de récupération, quels que soient les signaux qu’il utilise en interne, est le gardien. Tout le reste est un bris d’égalité.

6. Ce que cela signifie pour votre contenu

La sagesse conventionnelle en matière de rédaction de contenu SEO dit de couvrir plus de sous-thèmes, d’ajouter plus de sections, de créer de la densité. Les données indiquent que l’approche conventionnelle produit des pages « mixtes », les 17 % du milieu étant parfois citées et ignorées à d’autres moments.

Les pages mixtes ont le plus grand nombre de mots, le plus de titres et l’autorité de domaine la plus élevée de l’ensemble de données. Ce sont les « guides ultimes ». Ce sont également les acteurs les moins fiables de ChatGPT.

Les pages qui gagnent systématiquement sont ciblées. Ils:

Faites correspondre la requête directement dans leurs en-têtes,

A tendance à être plus court (le point idéal de citation est de 500 à 2 000 mots), et

Avoir suffisamment de structure (7 à 20 sous-titres) pour organiser le contenu sans le diluer.

Créez la page qui constitue la meilleure réponse à une question. Pas la page qui répond adéquatement à 20.

Image en vedette : Tero Vesalainen/Shutterstock ; Paulo Bobita/Journal des moteurs de recherche

Un contenu plus court et ciblé gagne dans ChatGPT

1. L’étude

2. La densité fait à peine bouger l’aiguille

3. Qu’est-ce qui prédit réellement la citation

4. L’exception Wikipédia

5. La réalité bimodale

6. Ce que cela signifie pour votre contenu

Google répertorie 9 scénarios qui expliquent comment il sélectionne les URL canoniques

Commentaires

Laisser un commentaire