Gary Illyes et Martin Splitt de Google ont publié un podcast sur Googlebot, expliquant qu’il ne s’agit pas d’un élément isolé, mais de centaines de robots d’exploration de différents produits et services, dont la plupart ne sont pas documentés publiquement.

Qu’est-ce que Googlebot

Gary précise que le nom « Googlebot » est un nom historique provenant des premiers jours où Google n’avait qu’un seul robot d’exploration. Ce n’est plus le cas car Google exploite de nombreux robots d’exploration sur différents produits, mais le nom Googlebot est resté, même s’il ne s’agit plus d’une seule chose.

En outre, il explique que Googlebot n’est pas l’infrastructure d’exploration elle-même ni un système unique. Googlebot est en fait un client interagissant avec un service d’exploration interne plus vaste, l’infrastructure.

Martin Splitt a demandé :

« Comment puis-je imaginer Googlebot ? À quoi ressemble grossièrement notre infrastructure d’exploration ? »

Gary a répondu :

« Je veux dire, l’appeler Googlebot, c’est un terme inapproprié. Et c’est quelque chose qui, à l’époque, peut-être au début des années 2000, fonctionnait bien parce qu’à l’époque, nous avions probablement un robot d’exploration parce que nous avions un produit. Mais peu de temps après la sortie d’un autre produit, je pense que c’était AdWords. Et puis nous avons commencé à avoir plus de robots d’exploration, puis d’autres produits sont sortis, puis d’autres robots d’exploration, puis encore d’autres robots d’exploration.

Mais le nom de Googlebot est resté d’une manière ou d’une autre. En général, lorsque nous parlions de notre infrastructure d’exploration en général, nous avions tendance à l’appeler Googlebot, mais c’était extrêmement inexact car Googlebot n’était qu’une chose qui communiquait avec notre infrastructure d’exploration.

L’infrastructure d’exploration a un nom

Gary explique ensuite que l’infrastructure d’exploration a un nom interne au sein de Google, mais il a refusé de dire quel est ce nom.

Il a poursuivi :

« Googlebot n’est pas notre infrastructure d’exploration. Notre infrastructure d’exploration n’a pas de nom externe. Elle a un nom interne. Peu importe ce que c’est. Appelons-le Jack. Et c’est le cas, je ne sais pas comment le dire. C’est un logiciel en tant que service, si vous voulez. SaaS. N’est-ce pas ? Alors, Jack a des points de terminaison d’API, pour ainsi dire. Et vous pouvez ensuite appeler ces points de terminaison d’API pour effectuer une récupération sur Internet.

Et puis, lorsque vous effectuez ces appels d’API, vous devez également spécifier certains paramètres tels que combien de temps êtes-vous prêt à attendre, le retour des octets ou quel est votre agent utilisateur que vous souhaitez envoyer ? Quel est le jeton de produit robots.txt auquel vous souhaitez obéir et tous ces paramètres.

Et nous définissons un paramètre par défaut pour la plupart de ces choses, pas toutes, mais la plupart de ces choses. Vous pouvez donc généralement les omettre, ce qui rend ces appels plus simples, je suppose, car vous n’avez pas besoin de tout spécifier. Mais sinon, il s’agit en réalité d’un simple appel API vers quelque chose dans le cloud ou sur un centre de données aléatoire. Et puis cela effectuera une récupération pour vous en tant que développeur de logiciels ou de produit.

Donc ce produit, parce que nous pouvons l’appeler un produit à ce stade, même s’il est interne, existe depuis très, très, très, très longtemps. … Mais au fond, cela a toujours fait la même chose. En gros, vous le dites, récupérez quelque chose sur Internet sans casser Internet. Et puis il le fera si les restrictions du site le permettent. C’est ça. Comme si je voulais le mettre en une seule phrase, ce serait tout.

Des centaines de robots SEO ne connaissent rien

Tous les robots d’exploration de Googlebot ne sont pas documentés, il y en a beaucoup que les référenceurs ne connaissent pas. Gary a déclaré que de nombreuses équipes internes de Google utilisent l’infrastructure d’exploration à des fins différentes. Il a déclaré qu’il existe potentiellement des dizaines, voire des centaines de robots d’exploration internes, mais que seuls les principaux robots d’exploration sont documentés publiquement.

Les robots d’exploration plus petits ou à faible volume ne sont souvent pas documentés en raison de limitations pratiques, mais si un robot d’exploration devient suffisamment grand, il peut être examiné et documenté.

Reprenant le thème de l’existence de plusieurs clients (crawlers), Gary a poursuivi :

« … nous essayons d’en documenter une grande partie, mais Google est une grande entreprise, donc il y a beaucoup d’équipes qui veulent récupérer sur Internet. Il y a donc beaucoup de robots d’exploration, beaucoup de robots d’exploration nommés, ce qui signifie que nous aurions besoin de documenter des dizaines, voire des centaines de robots d’exploration différents ou de robots d’exploration ou de récupération spéciaux. « 

Gary explique qu’il n’est pas possible de documenter les centaines de robots.

« Et sur une simple page HTML, c’est un peu impossible. Nous essayons donc en quelque sorte de tracer une ligne et disons que si le robot d’exploration est vraiment petit, ce qui signifie qu’il ne récupère pas trop de choses sur Internet, alors nous essayons de ne pas le documenter, car l’immobilier sur le site du robot d’exploration, les slash crawlers de développeurs.google.com, est en fait assez précieux.

Nous pourrions essayer de gérer cela différemment, mais pour le moment, seuls les robots d’exploration majeurs et les robots d’exploration spéciaux et les récupérations sont documentés, littéralement à cause du manque d’espace.

Différence entre les robots d’exploration et les récupérateurs

Gary explique qu’il existe des robots d’exploration et des récupérateurs qui entrent dans la catégorie Googlebot mais qui sont en réalité des choses différentes.

Il explique quelle est la différence :

« Donc, la façon la plus simple de l’expliquer est que les robots d’exploration travaillent par lots, puis les récupérateurs fonctionnent sur une base d’URL individuelle, ce qui signifie que vous donnez une URL à un récupérateur et qu’il récupère ensuite une seule URL. Vous ne pouvez pas lui donner une liste d’URL à récupérer.

Et puis pour les robots d’exploration, il s’agit généralement d’un flux constant d’URL et il s’exécute en continu pour votre équipe et récupère pour votre équipe sur Internet.

Et en interne, nous avons également cette politique selon laquelle les récupérations doivent être contrôlées d’une manière ou d’une autre par l’utilisateur. En gros, il y a quelqu’un à l’autre bout du fil qui attend la réponse du récupérateur.

Alors qu’avec les robots d’exploration, c’est comme si vous le faisiez quand vous en avez le temps.

Martin et Gary disent qu’il existe de nombreux robots d’exploration et de récupération qu’ils utilisent en interne et qui ne sont pas documentés. Gary a expliqué qu’il dispose d’un outil qui déclenche une alerte lorsqu’un robot d’exploration et un récupérateur franchit un seuil spécifique d’explorations et de récupérations par jour, qu’il suivra ensuite avec l’équipe responsable des explorations pour voir ce qu’il fait et pourquoi ainsi que pour vérifier qu’il ne fait pas quelque chose accidentellement. S’il s’agit d’un robot qui récupère un grand nombre d’URL de manière visible, il décidera de le documenter ou non afin que l’écosystème Web puisse en être informé.

Écoutez le podcast Search Off The Record ici :

Image en vedette par Shutterstock/TarikVision

Commentaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Se connecter

S’inscrire

Réinitialiser le mot de passe

Veuillez saisir votre identifiant ou votre adresse e-mail. Un lien permettant de créer un nouveau mot de passe vous sera envoyé par e-mail.