Anthropique a mis à jour sa documentation sur le robot cette semaine avec une présentation formelle de ses trois robots d’exploration Web et de leurs objectifs individuels.
La page répertorie désormais ClaudeBot (collecte de données de formation), Claude-User (récupération de pages lorsque les utilisateurs de Claude posent des questions) et Claude-SearchBot (indexation du contenu pour les résultats de recherche) en tant que robots distincts, chacun avec sa propre chaîne d’agent utilisateur robots.txt.
Chaque bot reçoit une explication « Que se passe-t-il lorsque vous le désactivez ». Pour Claude-SearchBot, Anthropique a écrit ça le bloquer « empêche notre système d’indexer votre contenu pour l’optimisation de la recherche, ce qui peut réduire la visibilité et la précision de votre site dans les résultats de recherche des utilisateurs ».
Pour Claude-User, le langage est similaire. Le bloquer « empêche notre système de récupérer votre contenu en réponse à une requête de l’utilisateur, ce qui peut réduire la visibilité de votre site pour la recherche Web dirigée par l’utilisateur ».
La mise à jour formalise un modèle qui devient de plus en plus courant parmi les produits de recherche d’IA. OpenAI gère la même structure à trois niveaux avec GPTBot, OAI-SearchBot et ChatGPT-User. Perplexity exploite une version à deux niveaux avec PerplexityBot pour l’indexation et Perplexity-User pour la récupération.
Anthropique dit ses trois robots honorent robots.txt, y compris Claude-User. OpenAI et Perplexity tracent une ligne plus nette pour les récupérateurs lancés par l’utilisateur, avertissant que les règles robots.txt peut ne pas s’appliquer à l’utilisateur ChatGPT et ne s’appliquent généralement pas à Perplexity-User. Pour Anthropic et OpenAI, le blocage du robot de formation ne bloque pas le robot de recherche ou le récupérateur demandé par l’utilisateur.
Ce qui a changé par rapport à l’ancienne page
La version précédente de la page du robot d’Anthropic faisait référence uniquement à ClaudeBot et utilisait un langage plus large sur la collecte de données pour le développement de modèles. Avant ClaudeBot, Anthropic opérait sous les agents utilisateurs Claude-Web et Anthropic-AI, tous deux maintenant obsolète.
Le passage d’un robot répertorié à trois reflète ce qu’OpenAI a fait fin 2024 lorsqu’il a séparé GPTBot d’OAI-SearchBot et ChatGPT-User. OpenAI a de nouveau mis à jour cette documentation en décembre, ajoutant une note selon laquelle GPTBot et OAI-SearchBot partagent des informations pour éviter une exploration en double lorsque les deux sont autorisés.
OpenAI aussi noté dans cette mise à jour de décembre que ChatGPT-User, qui gère la navigation initiée par l’utilisateur, ne peut pas être régi par robots.txt de la même manière que ses robots d’exploration automatisés. La documentation d’Anthropic ne fait pas de distinction similaire pour Claude-User.
Pourquoi c’est important
La stratégie générale de « bloquer les robots d’exploration de l’IA » que de nombreux sites ont adoptée en 2024 ne fonctionne plus comme avant. Le blocage de ClaudeBot arrête la collecte de données d’entraînement mais ne fait rien pour Claude-SearchBot ou Claude-User. Il en va de même du côté d’OpenAI.
Une étude BuzzStream que nous avons couverte en janvier a révélé que 79 % des principaux sites d’information bloquent au moins un robot de formation à l’IA. Mais 71 % bloquent également au moins un robot de récupération ou de recherche, se supprimant ainsi potentiellement des citations de recherche alimentées par l’IA.
Cela compte plus maintenant qu’il y a un an. L’analyse par Hostinger de 66,7 milliards de demandes de robots a montré que la couverture des robots de recherche d’OpenAI est passée de 4,7 % à plus de 55 % des sites de leur échantillon, alors même que la couverture des robots de formation a chuté de 84 % à 12 %. Les sites Web autorisent les robots de recherche tout en bloquant les robots de formation, et l’écart se creuse.
Les avertissements de visibilité diffèrent selon les entreprises. Anthropic affirme que le blocage de Claude-SearchBot « peut réduire » la visibilité. OpenAI est plus directindiquant aux éditeurs que les sites désabonnés d’OAI-SearchBot n’apparaîtront pas dans les réponses de recherche ChatGPT, bien que les liens de navigation puissent toujours apparaître. Tous deux positionnent leurs robots de recherche aux côtés de Googlebot et de Bingbot, et non à côté de leurs propres robots de formation.
Ce que cela signifie
Lors de la gestion des fichiers robots.txt, l’ancienne liste de blocage copier-coller nécessite un audit. La liste complète des robots d’exploration d’IA de SEJ comprend des chaînes d’agent utilisateur vérifiées dans chaque entreprise.
Un robots.txt stratégique nécessite désormais au minimum des entrées distinctes pour la formation et la recherche des robots, étant entendu que les récupérateurs lancés par l’utilisateur peuvent ne pas suivre les mêmes règles.
Regarder vers l’avenir
La division en trois niveaux crée une nouvelle catégorie de décision d’éditeur qui ressemble à ce que Google a fait il y a des années avec Google-Extended. Cet agent utilisateur permet aux sites de se désinscrire de la formation Gemini tout en restant dans les résultats de recherche Google. Désormais, Anthropic et OpenAI proposent la même séparation pour leurs plateformes.
À mesure que la recherche basée sur l’IA augmente sa part du trafic de référence, le coût du blocage des robots de recherche augmente. Les données Cloudflare Year in Review que nous avons rapportées en décembre ont montré que les robots d’exploration IA représentent déjà une part mesurable du trafic Web, et que l’écart entre le volume d’exploration et le trafic de référence reste large. La façon dont les éditeurs gèrent ces décisions à trois voies déterminera la quantité d’outils de recherche d’IA Web qui peuvent réellement faire surface.

Commentaires