Avant de commencer, il est important de tenir compte de cet avertissement : il y a des mathématiques à venir ! Si faire des mathématiques et apprendre des équations vous fait tourner la tête ou vous donne envie de vous asseoir et de manger un gâteau entier, préparez-vous (ou prenez un gâteau). Mais si vous aimez les mathématiques, si vous aimez les équations et que vous croyez vraiment que k = N (espèce de sadique !), oh, cet article va vous ravir alors que nous explorons la recherche hybride un peu plus en profondeur.
(Crédit image : Duane Forrester)Pendant des années (des décennies), le référencement a vécu dans une seule boucle de rétroaction. Nous avons optimisé, classé et suivi. Tout avait du sens car Google nous a donné le tableau de bord. (Je simplifie à l’extrême, mais vous comprenez.)
Désormais, les assistants IA se situent au-dessus de cette couche. Ils résument, citent et répondent aux questions avant qu’un clic ne se produise. Votre contenu peut être exposé, paraphrasé ou ignoré, et rien de tout cela n’apparaît dans les analyses.
Cela ne rend pas le référencement obsolète. Cela signifie qu’un nouveau type de visibilité lui est désormais parallèle. Cet article montre des idées sur la façon de mesurer cette visibilité sans code, accès spécial ou développeur, et comment rester ancré dans ce que nous savons réellement.
Pourquoi c’est important
Les moteurs de recherche génèrent encore presque tout le trafic mesurable. Google seul poignées près de 4 milliards de recherches par jour. En comparaison, Perplexity a rapporté volume annuel total de requêtes soit environ 10 milliards.
Alors oui, les assistants sont encore petits en comparaison. Mais ils façonnent la manière dont les informations sont interprétées. Vous pouvez déjà le voir lorsque ChatGPT Search ou Perplexity répond à une question et crée des liens vers ses sources. Ces citations révèlent à quels blocs de contenu (morceaux) et domaines les modèles font actuellement confiance.
Le défi est que les spécialistes du marketing ne disposent pas de tableau de bord natif pour indiquer la fréquence à laquelle cela se produit. Google a récemment ajouté les données de performances du mode AI dans la Search Console. Selon Google documentationles impressions, les clics et les positions du mode AI sont désormais inclus dans le type de recherche global « Web ».
Cette inclusion est importante, mais elle est intégrée. Il n’existe actuellement aucun moyen d’isoler le trafic du mode IA. Les données sont là, simplement regroupées dans un compartiment plus grand. Pas de partage de pourcentage. Aucune ligne de tendance. Pas encore.
En attendant que cette visibilité s’améliore, je suggère que nous puissions utiliser un test proxy pour comprendre où les assistants et la recherche s’accordent et où ils divergent.
Deux systèmes de recherche, deux façons d’être trouvé
Les moteurs de recherche traditionnels utilisent la récupération lexicale, où ils font correspondre directement des mots et des expressions. L’algorithme dominant, BM25, alimente des solutions comme Elasticsearch et des systèmes similaires depuis des années. Il est également utilisé dans les moteurs de recherche courants d’aujourd’hui.
Les assistants d’IA s’appuient sur la récupération sémantique. Au lieu de mots exacts, ils cartographient le sens à travers intégrationsles empreintes mathématiques du texte. Cela leur permet de trouver des passages conceptuellement liés même lorsque les mots exacts diffèrent.
Chaque système commet des erreurs différentes. La récupération lexicale manque de synonymes. La récupération sémantique peut relier des idées sans rapport. Mais lorsqu’ils sont combinés, ils produisent de meilleurs résultats.
Dans la plupart des systèmes de récupération hybrides, les deux méthodes sont fusionnées à l’aide d’une règle appelée Fusion de rangs réciproques (RRF). Vous n’êtes pas obligé d’être capable de l’exécuter, mais comprendre le concept vous aide à interpréter ce que vous mesurerez plus tard.
RRF en anglais simple
La récupération hybride fusionne plusieurs listes classées en une seule liste équilibrée. Le calcul derrière cette fusion est RRF.
La formule est simple : le score est égal à un divisé par k plus le rang. Ceci s’écrit 1 ÷ (k + rang). Si un élément apparaît dans plusieurs listes, vous additionnez ces scores.
Ici, « classement » désigne la position de l’élément dans cette liste, en commençant par 1 en haut. « k » est une constante qui atténue la différence entre les éléments les mieux classés et les éléments intermédiaires. La plupart des systèmes utilisent généralement quelque chose de proche de 60, mais chacun peut le régler différemment.
Il convient de rappeler qu’un modèle vectoriel ne classe pas les résultats en comptant les correspondances de mots. Il mesure à quel point chaque document est proche intégration concerne l’intégration de la requête dans un espace multidimensionnel. Le système trie ensuite ces scores de similarité du plus élevé au plus bas, créant ainsi une liste classée. Cela ressemble à un classement dans les moteurs de recherche, mais il est déterminé par mathématiques à distancepas fréquence du terme.
(Crédit image : Duane Forrester)Rendons cela tangible avec de petits chiffres et deux listes classées. Un de BM25 (pertinence des mots clés) et un d’un modèle vectoriel (pertinence sémantique). Nous utiliserons k = 10 pour plus de clarté.
Document A est classé numéro 1 dans le BM25 et numéro 3 dans la liste des vecteurs.
D’après BM25 : 1 ÷ (10 + 1) = 1 ÷ 11 = 0,0909.
Dans la liste de vecteurs : 1 ÷ (10 + 3) = 1 ÷ 13 = 0,0769.
Additionnez-les : 0,0909 + 0,0769 = 0,1678.
Document B est classé numéro 2 dans le BM25 et numéro 1 dans la liste des vecteurs.
D’après BM25 : 1 ÷ (10 + 2) = 1 ÷ 12 = 0,0833.
Dans la liste de vecteurs : 1 ÷ (10 + 1) = 1 ÷ 11 = 0,0909.
Additionnez-les : 0,0833 + 0,0909 = 0,1742.
Document C est classé numéro 3 dans le BM25 et numéro 2 dans la liste des vecteurs.
D’après BM25 : 1 ÷ (10 + 3) = 1 ÷ 13 = 0,0769.
Dans la liste de vecteurs : 1 ÷ (10 + 2) = 1 ÷ 12 = 0,0833.
Additionnez-les : 0,0769 + 0,0833 = 0,1602.
Document B gagne ici car il occupe une place élevée dans les deux listes. Si vous augmentez k à 60, les différences diminuent, produisant un mélange plus doux et moins lourd.
Cet exemple est purement illustratif. Chaque plate-forme ajuste les paramètres différemment, et aucune documentation publique ne confirme les valeurs k utilisées par tout moteur. Considérez-le comme une analogie avec la façon dont plusieurs signaux sont moyennés.
Où vivent réellement ces mathématiques
Vous n’aurez jamais besoin de le coder vous-même car RRF fait déjà partie des piles de recherche modernes. Voici des exemples de ce type de système provenant de leurs fournisseurs fondamentaux. Si vous lisez tout cela, vous comprendrez mieux comment des plateformes comme Perplexity font ce qu’elles font :
Tous suivent le même processus de base : récupérer avec BM25, récupérer avec des vecteurs, marquer avec RRF et fusionner. Les calculs ci-dessus expliquent le concept, et non la formule littérale à l’intérieur de chaque produit.
Observer la récupération d’hybrides dans la nature
Les spécialistes du marketing ne peuvent pas voir ces listes internes, mais nous pouvons observer le comportement des systèmes en surface. L’astuce consiste à comparer ce que Google classe avec ce qu’un assistant cite, puis à mesurer le chevauchement, la nouveauté et la cohérence. Ce calcul externe est une heuristique, un proxy de visibilité. Ce ne sont pas les mêmes calculs que ceux que les plateformes calculent en interne.
Étape 1. Rassemblez les données
Choisissez 10 requêtes importantes pour votre entreprise.
Pour chaque requête :
- Exécutez-le dans la recherche Google et copiez les 10 principales URL organiques.
- Exécutez-le dans un assistant qui affiche les citations, tel que Perplexity ou ChatGPT Search, et copiez chaque URL ou domaine cité.
Vous disposez désormais de deux listes par requête : Google Top 10 et Assistant Citations.
(Sachez que tous les assistants n’affichent pas les citations complètes et que toutes les requêtes ne les déclenchent pas. Certains assistants peuvent résumer sans lister les sources du tout. Lorsque cela se produit, ignorez cette requête car elle ne peut tout simplement pas être mesurée de cette façon.)
Étape 2. Comptez trois choses
- Intersection (I) : combien d’URL ou de domaines apparaissent dans les deux listes.
- Nouveauté (N) : combien de citations d’assistant n’apparaissent pas dans le top 10 de Google.
Si l’assistant a six citations et trois chevauchements, N = 6 − 3 = 3. - Fréquence (F): à quelle fréquence chaque domaine apparaît dans les 10 requêtes.
Étape 3. Transformez les décomptes en mesures rapides
Pour chaque ensemble de requêtes :
Taux de visibilité partagée (SVR) = I ÷ 10.
Cela mesure la part du top 10 de Google qui apparaît également dans les citations de l’assistant.
Taux de visibilité unique de l’assistant (UAVR) = N ÷ nombre total de citations de l’assistant pour cette requête.
Cela montre la quantité de nouveau matériel introduit par l’assistant.
Répéter le nombre de citations (RCC) = (somme de F pour chaque domaine) ÷ nombre de requêtes.
Cela reflète la cohérence avec laquelle un domaine est cité dans différentes réponses.
Exemple:
Google top 10 = 10 URL. Citations adjointes = 6. Trois se chevauchent.
I = 3, N = 3, F (par exemple.com) = 4 (apparaît dans quatre réponses de l’assistant).
RVS = 3 ÷ 10 = 0,30.
Uavr = 3 ÷ 6 = 0,50.
RCC = 4 ÷ 10 = 0,40.
Vous disposez désormais d’un instantané numérique de la mesure dans laquelle les assistants reflètent ou s’écartent de la recherche.
Étape 4. Interpréter
Ces scores ne sont en aucun cas des références de l’industrie, mais simplement des points de départ suggérés pour vous. N’hésitez pas à ajuster selon vos besoins :
- Un SVR élevé (> 0,6) signifie que votre contenu s’aligne sur les deux systèmes. La pertinence lexicale et sémantique est synchronisée.
- Un SVR modéré (0,3 – 0,6) avec un RCC élevé suggère que vos pages sont sémantiquement fiables mais nécessitent un balisage plus clair ou des liens plus forts.
- Un SVR faible (<0,3) avec un UAVR élevé montre que les assistants font confiance à d'autres sources. Cela signale souvent des problèmes de structure ou de clarté.
- Un RCC élevé pour les concurrents indique que le modèle cite à plusieurs reprises leurs domaines, il vaut donc la peine d’étudier les indices de conception de schéma ou de contenu.
Étape 5. Agir
Si le SVR est faible, améliorez les titres, la clarté et la capacité d’exploration. Si le RCC est faible pour votre marque, standardisez les champs d’auteur, le schéma et les horodatages. Si l’UAVR est élevé, suivez ces nouveaux domaines car ils peuvent déjà détenir une confiance sémantique dans votre niche.
(Cette approche ne fonctionnera pas toujours exactement comme indiqué. Certains assistants limitent le nombre de citations ou les varient selon les régions. Les résultats peuvent différer selon la géographie et le type de requête. Traitez-le comme un exercice d’observation et non comme un cadre rigide.)
Pourquoi ce calcul est important
Ce calcul donne aux spécialistes du marketing un moyen de quantifier l’accord et le désaccord entre deux systèmes de recherche. Il s’agit de mathématiques de diagnostic, pas de mathématiques de classement. Cela ne vous dit pas pourquoi l’assistant a choisi une source ; il vous dit que c’est le cas et avec quelle cohérence.
Ce modèle est la face visible de la logique hybride invisible qui opère en coulisses. Pensez-y comme si vous regardiez la météo en observant le mouvement des arbres. Vous ne simulez pas l’atmosphère, vous lisez simplement ses effets.
Travail sur la page qui facilite la récupération hybride
Une fois que vous voyez comment les chevauchements et la nouveauté se manifestent, l’étape suivante consiste à resserrer la structure et la clarté.
- Écrivez sous forme de courts blocs d’affirmations et de preuves de 200 à 300 mots.
- Utilisez des titres clairs, des puces et des ancres stables pour que BM25 puisse trouver les termes exacts.
- Ajoutez des données structurées (FAQ, HowTo, Product, TechArticle) pour que les vecteurs et les assistants comprennent le contexte.
- Maintenez la stabilité des URL canoniques et horodatez les mises à jour du contenu.
- Publiez des versions PDF canoniques pour les sujets hautement fiables ; les assistants citent souvent en premier des formats fixes et vérifiables.
Ces étapes prennent en charge à la fois les robots d’exploration et les LLM car ils partagent le langage de structure.
Reporting et cadrage exécutif
Les dirigeants ne se soucient pas autant du BM25 ou des intégrations que de la visibilité et de la confiance.
Vos nouvelles mesures (SVR, UAVR et RCC) peuvent aider à traduire le résumé en quelque chose de mesurable : quelle part de votre présence SEO existante est consacrée à la découverte de l’IA et où les concurrents sont plutôt cités.
Associez ces résultats aux totaux de performances du mode IA de la Search Console, mais n’oubliez pas : vous ne pouvez actuellement pas séparer les données du mode IA des clics Web réguliers, alors traitez toute estimation spécifique à l’IA comme directionnelle et non définitive. Il convient également de noter qu’il peut encore y avoir des limites régionales en matière de disponibilité des données.
Ces limites ne rendent cependant pas les calculs moins utiles. Ils aident à maintenir des attentes réalistes tout en vous offrant un moyen concret de parler de la visibilité basée sur l’IA avec les dirigeants.
Résumé
L’écart entre la recherche et les assistants n’est pas un mur. Il s’agit plutôt d’une différence de signal. Les moteurs de recherche classent les pages une fois que la réponse est connue. Les assistants récupèrent des morceaux avant que la réponse n’existe.
Les calculs présentés dans cet article sont une idée de la façon d’observer cette transition sans outils de développement. Ce ne sont pas les calculs de la plateforme ; c’est un proxy du marketing qui aide à rendre visible l’invisible.
Au final, les fondamentaux restent les mêmes. Vous optimisez toujours la clarté, la structure et l’autorité.
Vous pouvez désormais mesurer la manière dont cette autorité circule entre les systèmes de classement et les systèmes de récupération, et le faire avec des attentes réalistes.
Cette visibilité, comptée et contextualisée, permet au référencement moderne de rester ancré dans la réalité.
Plus de ressources :
Cet article a été initialement publié sur Duane Forrester décode.
Image en vedette : Roman Samborskyi/Shutterstock

Commentaires