John Mueller de Google a répondu à une question sur la Search Console et le rapport d’erreurs 404, suggérant que l’exploration répétée de pages avec un code d’état 404 est un signal positif.
Code d’état 404
Le code d’état 404, souvent appelé code d’erreur, a longtemps dérouté de nombreux propriétaires de sites et référenceurs, car le mot « erreur » implique que quelque chose est cassé et doit être réparé. Mais ce n’est pas le cas.
404 est simplement un code d’état qu’un serveur envoie en réponse à la demande d’une page d’un navigateur. 404 est un message qui indique que la page demandée n’a pas été trouvée. La seule erreur est la requête elle-même car la page n’existe pas.
Bien que généralement appelé erreur 404, techniquement, le nom formel est 404 Not Found. Ce nom reflète fidèlement la signification du code d’état 404 : la page demandée n’a pas été trouvée.
Capture d’écran de la norme Web officielle pour le code de statut 4o4

Google continue d’explorer 404 pages
Quelqu’un sur Reddit a posté que Google Search Console continue de signaler que les pages qui n’existent plus continuent d’être trouvées via les données du plan du site, même si le plan du site ne répertorie plus les pages manquantes.
La personne prétend que la Search Console explore les pages manquantes, mais c’est en réalité Googlebot qui les explore ; La Search Console signale simplement les échecs des analyses.
Ils s’inquiètent du budget d’exploration gaspillé et souhaitent savoir s’ils doivent plutôt envoyer un code de réponse 410.
Ils a écrit:
« Google Search Console explore toujours un tas de pages inexistantes qui renvoient 404. Dans l’outil d’inspection des pages et les statistiques d’exploration, il est indiqué qu’elles sont « découvertes via » mon page-sitemap.xml.
Le problème :
Lorsque j’ouvre actuellement le page-sitemap.xml dans le navigateur, aucune de ces 404 URL n’y figure.
Le plan du site ne contient que 21 bonnes pages en direct.
…Je ne veux pas supprimer ou arrêter de soumettre le plan du site car il est propre et ne pointe que vers de bonnes pages. Mais ces explorations répétées gaspillent le budget d’exploration.
Quelqu’un a-t-il déjà rencontré cela ?
Google finit-il par s’arrêter tout seul ?
Dois-je remplacer les 404 par des 410 Gone ?
Ou existe-t-il une autre façon de dire à GSC « hé, ceux-ci sont partis pour toujours » ? »
À propos des explorations de pages 404 de Google
Google a pour habitude de longue date d’explorer les pages 404 au cas où ces pages seraient supprimées par accident et auraient été restaurées. Comme vous le verrez dans un instant, John Mueller de Google indique clairement que l’exploration répétée des pages 404 indique que les systèmes de Google peuvent considérer le contenu sous un jour positif.
À propos de la réponse 404 Page introuvable
Le fonctionnaire définition standard Web du code d’état 404 c’est que la ressource demandée n’a pas été trouvée, et c’est tout, rien de plus. Cette réponse n’indique pas que la page ne reviendra jamais. Cela signifie simplement que la page demandée n’a pas été trouvée.
Environ 410 réponses disparues
Le norme Web officielle pour le code d’état 410 est que la page a disparu et que cet état de disparition est probablement permanent. Le but de la réponse est de communiquer que les ressources ont intentionnellement disparu et que tout lien vers ces ressources doit être supprimé.
Google gère essentiellement les 404 et 410 de la même manière
Techniquement, si une page Web disparaît définitivement et ne revient jamais, 410 est le message serveur correct à envoyer en réponse aux demandes concernant la page manquante. En pratique, Google traite la réponse 410 pratiquement de la même manière que la réponse 404 du serveur. De la même manière qu’il traite les réponses 404, les robots d’exploration de Google peuvent toujours revenir pour vérifier si la page de réponse 410 a disparu.
Les Googleurs ont toujours déclaré que la réponse du serveur 410 était légèrement plus rapide pour purger une page de l’index de Google.
Google confirme les faits sur les codes de réponse 404 et 410
Mueller de Google a répondu par une réponse courte mais riche en informations expliquant que les 404 signalés dans la Search Console ne sont pas un problème qui doit être résolu, que l’envoi d’une réponse 410 ne fera aucune différence dans les rapports 404 de la Search Console et qu’une abondance d’URL dans ce rapport peut être vue sous un jour positif.
Mueller a répondu :
« Ceux-ci ne posent pas de problèmes, alors je les laisserais tranquilles. Ils seront réexplorés pendant potentiellement un certain temps, un 410 n’y changera rien. D’une certaine manière, cela signifie que Google serait d’accord pour récupérer plus de contenu de votre site. «
Malentendus concernant les réponses du serveur 4XX
La discussion sur Reddit s’est poursuivie. Le modérateur du subreddit r/SEO a suggéré que la raison pour laquelle la Search Console signale avoir découvert l’URL dans le plan du site est que c’est là que Googlebot a initialement découvert l’URL, ce qui semble raisonnable.
Là où le modérateur s’est trompé, c’est en expliquant ce que signifie le code de réponse 404.
Le modérateur à tort expliqué:
« 404 signifie essentiellement : page cassée, nous la réparerons bientôt, revenez : et c’est ce que fait Google : vérifiez à nouveau si vous l’avez réparée.
Le modérateur fait deux erreurs dans sa réponse.
1. 404 signifie page introuvable
Le code d’état 404 signifie uniquement que la page n’a pas été trouvée, point final. Vous ne me croyez pas ? Voici le norme Web officielle pour le code d’état 404:
« Le code d’état 404 (Not Found) indique que le serveur d’origine n’a pas trouvé de représentation actuelle pour la ressource cible ou n’est pas disposé à divulguer qu’il en existe une. Un code d’état 404 n’indique pas si ce manque de représentation est temporaire ou permanent… »
2. 404 n’est pas une erreur à corriger
Les gens se réfèrent généralement au code d’état 404 comme une réponse d’erreur. La raison pour laquelle il s’agit d’une erreur est que le navigateur ou le robot d’exploration a demandé une URL qui n’existe pas, ce qui signifie que la demande était l’erreur, et non pas que la page doit être corrigée, comme l’a insisté le modérateur lorsqu’il a dit « 404 signifie essentiellement – page cassée », ce qui est 100 % incorrect.
De plus, le modérateur de Reddit a eu tort d’insister sur le fait que Google « vérifie si vous avez corrigé le problème ». Google vérifie si la page a disparu par accident, mais cela ne signifie pas que le 404 doit être corrigé. La plupart du temps, une page est censée disparaître pour une raison, et Google recommande de fournir un code de réponse 404 pour ces moments-là.
Ce n’est pas nouveau
Il ne s’agit pas du fait que les informations du modérateur de Reddit soient obsolètes. Cela a toujours été le cas de Google, qui suit généralement les standards officiels du Web.
Matt Cutts de Google a expliqué comment Google gère les 404 et pourquoi dans une vidéo de 2014 :
« Il s’avère que les webmasters se tirent une balle dans le pied assez souvent. Des pages disparaissent, des gens configurent mal des sites, des sites tombent en panne, des gens bloquent Googlebot par accident, des gens bloquent des utilisateurs réguliers par accident. Donc, si vous regardez l’ensemble du Web, l’équipe d’exploration doit être conçue pour être robuste face à cela.
Donc avec les 404… nous allons protéger cette page pendant vingt-quatre heures dans le système d’exploration. Alors nous attendons en quelque sorte, et nous disons, eh bien, c’était peut-être un 404 passager. Peut-être que ce n’était pas vraiment prévu pour être une page introuvable. Et ainsi, dans le système d’exploration, il sera protégé pendant vingt-quatre heures.
…Maintenant, ne le prenez pas trop mal, nous allons quand même revenir en arrière et revérifier et nous assurer que ces pages ont vraiment disparu ou peut-être qu’elles sont revenues à la vie.
… Et donc si une page a disparu, c’est bien de servir un 404. Si vous savez qu’elle a vraiment disparu, c’est bien de servir un 410.
Mais nous allons concevoir notre système d’exploration pour essayer d’être robuste. Mais si votre site tombe en panne, ou si vous êtes piraté ou autre, nous essayons de nous assurer que nous pouvons toujours trouver le bon contenu chaque fois qu’il est disponible.
Les plats à emporter
- L’exploration de 404 pages par Googlebot peut être considérée comme un signal positif indiquant que Google aime votre contenu.
- Les codes d’état 404 ne signifient pas qu’une page est erronée ; cela signifie qu’une page n’a pas été trouvée.
- Les codes d’état 404 ne signifient pas que quelque chose doit être réparé. Cela signifie simplement qu’une page demandée n’a pas été trouvée.
- Il n’y a rien de mal à fournir un code de réponse 404 ; Google le recommande.
- La Search Console affiche 404 réponses afin qu’un propriétaire de site puisse décider si ces pages ont intentionnellement disparu ou non.
Image en vedette par Shutterstock/Jack_the_sparow

Commentaires