Google a discrètement mis à jour sa liste de récupérateurs déclenchés par l’utilisateur avec une nouvelle documentation pour Google NotebookLM. L’importance de ce changement apparemment mineur est qu’il est clair que Google NotebookLM n’obéira pas au fichier robots.txt.

Google NotebookLM

NotebookLM est un outil de recherche et d’écriture d’IA qui permet aux utilisateurs d’ajouter une URL de page Web, qui traitera le contenu, puis leur permettra de poser une série de questions et de générer des résumés basés sur le contenu.

L’outil de Google peut créer automatiquement une carte mentale interactive qui organise les sujets d’un site Web et en extrait les points à retenir.

Les récupérateurs déclenchés par l’utilisateur ignorent Robots.txt

Les récupérateurs déclenchés par l’utilisateur de Google sont des agents Web déclenchés par les utilisateurs et qui ignorent par défaut le protocole robots.txt.

Selon les récupérateurs déclenchés par l’utilisateur de Google documentation:

« Étant donné que la récupération a été demandée par un utilisateur, ces récupérateurs ignorent généralement les règles robots.txt. »

Google-NotebookLM ignore Robots.txt

Le but de robots.txt est de donner aux éditeurs le contrôle des robots qui indexent les pages Web. Mais des agents tels que le récupérateur Google-NotebookLM n’indexent pas le contenu Web, ils agissent au nom des utilisateurs qui interagissent avec le contenu du site Web via NotebookLM de Google.

Comment bloquer NotebookLM

Google utilise le Google-NotebookLM agent utilisateur lors de l’extraction du contenu du site Web. Il est donc possible que les éditeurs souhaitant empêcher les utilisateurs d’accéder à leur contenu créent des règles qui bloquent automatiquement cet agent utilisateur. Par exemple, une solution simple pour les éditeurs WordPress consiste à utiliser Wordfence pour créer une règle personnalisée afin de bloquer tous les visiteurs du site Web qui utilisent l’agent utilisateur Google-NotebookLM.

Une autre façon de procéder consiste à utiliser .htaccess en utilisant la règle suivante :


RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} Google-NotebookLM (NC)
RewriteRule .* - (F,L)

Commentaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Se connecter

S’inscrire

Réinitialiser le mot de passe

Veuillez saisir votre identifiant ou votre adresse e-mail. Un lien permettant de créer un nouveau mot de passe vous sera envoyé par e-mail.