Gary Ilyes et Martin Splitt de Google ont discuté des limites d’exploration de Googlebot, fournissant plus de détails sur les raisons pour lesquelles les limites existent et révélant de nouvelles informations sur la manière dont ces limites peuvent être ajustées à la hausse ou à la baisse en fonction des besoins et de ce qui est accompli.
Détails sur les limites de Googlebot
Gary Illyes a partagé des détails sur ce qui se passe dans les coulisses de Google et qui détermine les différentes limites d’exploration, à commencer par la limite de 15 mégaoctets de Googlebot.
Il a déclaré que tout robot d’exploration de Google avait une limite de 15 mégaoctets et a explicitement déclaré que cette limite pouvait être outrepassée ou désactivée. En fait, il a déclaré que les équipes de Google outrepassaient régulièrement cette limite. Il a utilisé l’exemple de la recherche Google, qui outrepasse cette limite en la réduisant à deux mégaoctets.
Illyes a expliqué :
« Je veux dire, il y a un tas de choses qui sont destinées à notre propre protection ou à celle de notre infrastructure. Comme par exemple, la fameuse limite par défaut de 15 mégaoctets qui est fixée au niveau de l’infrastructure. «
Et fondamentalement, tout robot d’exploration qui ne remplace pas ce paramètre aura une limite de 15 mégaoctets. Fondamentalement, il commence à récupérer les octets du serveur ou tout ce que le serveur envoie. Et puis il y a un compteur interne. Et puis, lorsqu’il atteint 15 mégaoctets, il cesse de recevoir les octets.
Je ne sais pas si cela ferme la connexion ou non. Je pense que cela ne ferme pas la connexion. Il envoie simplement une réponse au serveur que, OK, vous pouvez arrêter maintenant. Je vais bien.
Mais les équipes individuelles peuvent alors contourner cela. Et cela arrive. Cela arrive assez souvent. Et par exemple, pour la recherche Google, en particulier pour la recherche Google, la limite est portée à deux mégaoctets.
Les limites de Googlebot concernent la protection des infrastructures
Illyes a ensuite partagé un exemple dans lequel la limite de 15 mégaoctets est outrepassée pour augmenter la limite d’exploration, dans ce cas pour les PDF. C’est là qu’il évoque les limites de Googlebot dans le contexte de la protection de l’infrastructure de Google contre une surcharge de données.
Il a offert plus de détails :
« Eh bien, presque tout. Comme, par exemple, pour les PDF, c’est, je ne sais pas, 64 ou autre. Parce que les PDF peuvent, comme la norme HTTP, si vous les exportez au format PDF, je pense que vous avez dit que, si vous l’exportez au format PDF, alors c’est 96 mégaoctets ou quelque chose du genre.
Mais cela signifie que notre infrastructure serait submergée si nous récupérions le tout, puis le convertissons en HTML, bla, bla, puis commençons à le traiter.
C’est comme si c’était écrasant parce qu’il y avait tellement de données.Et il en va de même pour le HTML. C’est le standard de vie HTML. Par exemple, si vous disposez d’environ 14 mégaoctets, nous n’allons pas les récupérer. Nous allons récupérer les pages individuelles car, heureusement, elles disposaient également de suffisamment de puissance cérébrale pour avoir des pages individuelles pour les fonctionnalités individuelles du HTML. Nous pouvons récupérer ces pages, mais nous n’obtiendrons rien d’utile hors du one-pager de 14 mégaoctets du standard HTML.
Les autres robots d’exploration de Google ont des limites différentes
À ce stade, Illyes a révélé que les autres robots d’exploration de Google ont des limites différentes et que les limites documentées ne sont pas des limites strictes pour tous les robots d’exploration de Google.
Il a poursuivi :
« Alors oui, et d’autres robots, je n’ai jamais travaillé sur d’autres robots, mais j’en suis sûr, d’autres robots ont des paramètres différents. Je pourrais imaginer, par exemple, même dans des projets individuels, il peut avoir des paramètres différents pour la même chose.
Par exemple, je peux imaginer que si nous devons indexer quelque chose très rapidement, la limite de troncature pourrait être d’un mégaoctet, par exemple. Je ne sais pas si c’est le cas, mais je pourrais imaginer que ce soit le cas. Parce que si vous devez faire passer quelque chose dans le pipeline d’indexation en quelques secondes, il est alors plus facile de gérer peu de données.
L’infrastructure d’exploration de Google n’est pas monolithique
Cette partie de l’épisode Search Off The Record s’est terminée avec Martin Splitt affirmant que l’infrastructure d’exploration de Google est flexible et bien plus diversifiée que ce qui est décrit dans la documentation de Google, affirmant qu’elle n’est pas monolithique. Monolithique signifie littéralement une roche massive et est utilisé pour décrire quelque chose d’immuable et de cohérent. En affirmant que les robots d’exploration de Google ne sont pas monolithiques, Splitt affirme qu’ils sont flexibles en termes de limites de récupération et d’autres configurations.
Il s’est également concentré sur la description de l’infrastructure d’exploration de Google comme un logiciel en tant que service.
Splitt a résumé les points à retenir :
« C’est vrai. C’est vrai. Je pense qu’en général, il est utile d’avoir clarifié cette idée selon laquelle l’exploration est simplement comme une sorte de chose monolithique. Cela ressemble plus à un logiciel en tant que service dont la recherche, ou la recherche sur le Web en particulier, est un client et non comme une sorte de chose monolithique.
Et comme vous l’avez dit, la configuration peut changer. Cela peut même changer au sein, disons, de Googlebot. Si je recherche une image, nous autorisons probablement les images à dépasser 2 mégaoctets, je suppose, car les images dépassent facilement 2 mégaoctets. Pour les PDF, autorisez 64. Tout ce qui est documenté, nous relierons la documentation. Mais je pense que cela est parfaitement logique.
Et si vous y réfléchissez, c’est un service que nous appelons avec un tas de paramètres, alors cela a beaucoup plus de sens à voir, OK, donc il y a une configuration différente. Et cette configuration peut changer au niveau de la demande, pas nécessairement simplement, Googlebot est toujours le même.
Écoutez l’épisode Search Off The Record à partir de 20 minutes :
Image en vedette par Shutterstock/BestForBest

Commentaires