Le deuxième jour de Google Search Central Live APAC 2025 a débuté avec un bref lien avec la plongée profonde de la veille dans la rampe, avant de passer carrément à l’indexation.
Cherry Prommawin Ouvert en nous parcourant la façon dont Google analyse HTML et met en évidence les étapes clés de l’indexation:
- Analyse HTML.
- Rendu et exécution JavaScript.
- Déduplication.
- Extraction de caractéristiques.
- Extraction du signal.
Cela a établi le thème du reste de la journée.
Cherry a noté que Google normalise d’abord le HTML brut dans un DOM, puis recherche des éléments d’en-tête et de navigation, et détermine quelle section contient le contenu principal. Au cours de ce processus, il extrait également des éléments tels que rel = canonical, hreflang, liens et ancres et balises méta-robots.
« Il n’y a aucune préférence entre les sites Web réactifs par rapport aux sites Web dynamiques / adaptatifs. Google n’essaie pas de détecter cela et n’a pas de pondération préférentielle. » – Cherry Prommawin
Les liens restent au cœur de la structure du Web, à la fois pour la découverte et pour le classement:
«Les liens sont toujours une partie importante d’Internet et utilisés pour découvrir de nouvelles pages, et pour déterminer la structure du site, et nous les utilisons pour le classement.» – Cherry Prommawin
Contrôle d’indexation avec les règles des robots
Gary Illyes clarifié où les balises robots.txt et robots-méta s’intègrent dans l’écoulement:
- Robots.txt contrôle ce que les robots peuvent aller chercher.
- Tags de méta-robot Contrôlez comment ces données récupérées sont utilisées en aval.
Il a souligné plusieurs directives moins connues:
- aucun: Équivalent à
noindex,nofollowcombiné en une seule règle. Y a-t-il un avantage à cela? Bien que fonctionnellement identique, l’utilisation d’une directive au lieu de deux peut simplifier la gestion des balises. - notranslate: S’il est défini, Chrome ne proposera plus de traduire la page.
- NOIMageIndex: S’applique également aux actifs vidéo.
- Indisponible après: Bien qu’il ait été introduit par des ingénieurs qui ont depuis évolué, cela fonctionne toujours. Cela pourrait être utile pour dépréciation des articles de blog sensibles au temps, tels que des offres et des promotions à temps limité, afin qu’ils ne persistent pas dans les fonctionnalités de l’IA de Google et ne risquent pas les utilisateurs trompeurs ou nuisent à la perception de la marque.
Comprendre ce qu’il y a sur une page
Gary Illyes a souligné que le contenu principal, tel que défini par les directives de la qualité de la qualité de Google, est l’élément le plus critique pour ramper et indexer. Il peut s’agir de texte, d’images, de vidéos ou de fonctionnalités riches comme les calculatrices.
Il a montré à quel point le déplacement d’un sujet dans la zone de contenu principale peut augmenter le classement.
Dans un exemple, le déplacement de références à «Hugo 7» d’une barre latérale dans la teneur centrale (principale) a conduit à une augmentation mesurable de la visibilité.
«Si vous voulez vous classer pour certaines choses, mettez ces mots et sujets dans des endroits importants (sur la page).» – Gary Illyes
Tokenisation pour la recherche
Vous ne pouvez pas jeter HTML brut dans un index consultable à l’échelle. Google le divise en «jetons», des mots ou des phrases individuels, et stocke ceux dans son index.
Le premier système de segmentation HTML remonte au bureau d’ingénierie Tokyo 2001 de Google, et les mêmes méthodes de tokenisation alimentent ses produits AI, depuis «pourquoi réinventer la roue».
Lorsque le contenu principal est mince ou de faible valeur, ce que Google étiquette comme un «Soft 404», il est signalé d’une annotation de la pièce maîtresse pour montrer que cette carence est au cœur de la page, pas seulement dans une section périphérique.
Gestion de la duplication Web
Image de l’auteur, juillet 2025Cherry Prommawin a expliqué la déduplication dans trois domaines d’intérêt:
- Clustering: Utilisation des redirectes, la similitude du contenu et Rel = canonique vers des pages en double de groupe.
- Vérification du contenu: Les sommes de contrôle qui ignorent le chauffeur et capturent de nombreuses pages à erreurs souples. Notez que les erreurs douces peuvent réduire un cluster entier.
- Localisation: Lorsque les pages ne diffèrent que par les paramètres régionaux (par exemple via des géo-redirects), Hreflang les plie sans pénalité.
Elle a contrasté des redirections permanentes et temporaires: les deux jouent un rôle dans la rampe et le regroupement, mais seuls les redirections permanentes influencent que l’URL est choisie comme canonique du cluster.
Google hiérarte d’abord le risque de détournement, l’expérience utilisateur deuxième et les signaux du propriétaire du site (tels que votre rel = canonical) troisième lors de la sélection de l’URL représentative.
Ciblage géotétal
Geotargetting vous permet de signaler à Google quel pays ou région, votre contenu est le plus pertinent, et il fonctionne différemment du ciblage du langage simple.
Prommawin a souligné que vous n’avez pas besoin de masquer le contenu en double sur deux sites spécifiques au pays; Hreflang gérera ces suppléants pour vous.
Image de l’auteur, juillet 2025Si vous servez le contenu en double sur plusieurs URL régionales sans localisation, vous risquez de confondre les robots et les utilisateurs.
Pour Geotarget efficacement, assurez-vous que chaque version a un contenu localisé unique adapté à son public spécifique.
Les principaux signaux géotarbants utilisés par Google sont:
- Domaine de haut niveau du CODE (CCTLD): Des domaines comme .sg ou .au indiquent le pays cible.
- Annotations Hreflang: Utiliser Tags, en-têtes HTTP ou entrées de site pour déclarer la langue et les suppléants régionaux.
- Emplacement du serveur: L’adresse IP ou l’emplacement d’hébergement de votre serveur peut agir comme un indice géographique.
- Signaux locaux supplémentairestel que Langue et devise sur la page, les liens des autres sites Web régionaux et les signaux de votre profil d’entreprise local, tous renforcent votre région cible.
En combinant ces signaux avec du contenu véritablement localisé, vous aidez Google à servir la bonne version de votre site aux bons utilisateurs et à éviter les pièges de clusters en double non désigné.
Données et médias structurés
Gary Illyes a introduit la phase d’extraction des caractéristiques, qui s’exécute après la déduplication et est coûteuse en calcul. Cela commence par HTML, puis lance l’indexation des médias séparés et asynchrones pour les images et les vidéos.
Si votre HTML est dans l’index mais que vos médias ne l’est pas, cela signifie simplement que le pipeline de médias fonctionne toujours.
Les séances de ce morceau comprenaient:
- Données structurées avec William Prabowo.
- Utilisation d’images avec Ian Huang.
- Engager les utilisateurs avec une vidéo avec William Prabowo.
Q&R à emporter sur le schéma
Le balisage du schéma peut aider Google à comprendre les relations entre les entités et à activer les fonctionnalités axées sur LLM.
Mais, un schéma excessif ou redondant ajoute uniquement le ballonnement des pages et n’a aucun avantage supplémentaire. Et le schéma n’est pas utilisé dans le cadre du processus de classement.
Calcul des signaux
Pendant l’extraction du signal, faisant également partie de l’indexation, Google calcule un mélange de:
- Signaux indirects (liens, mentions par d’autres pages).
- Signaux directs (mots et placements sur page).
Image de l’auteur, juillet 2025Illyes a confirmé que Google utilise toujours PageRank en interne. Ce n’est pas l’algorithme exact du livre blanc de 1996, mais il porte le même nom.
Manipulation du spam
Les systèmes de Google identifient environ 40 milliards de pages de spam chaque jour, alimentées par leur «spambrain» basée sur LLM.
Image de l’auteur, juillet 2025De plus, Illyes a souligné que l’EAT n’est pas un signal d’indexation ou de classement. C’est un principe explicatif, pas une métrique calculée.
Décider de ce qui est indexé
La sélection d’index se résume à la qualité, définie comme une combinaison de fiabilité et d’utilité pour les utilisateurs finaux. Les pages sont supprimées de l’indice pour les signaux négatifs clairs:
noindexdirectives.- Contenu expiré ou limité dans le temps.
- Soft 404s et doublons glissés.
- Pur spam ou violations politiques.
Si une page a été rampée mais pas indexée, le remède consiste à améliorer la qualité du contenu.
La liaison interne peut aider, mais seulement dans la mesure où elle rend la page vraiment plus utile. L’objectif de Google est de récompenser les améliorations axées sur l’utilisateur, et non la manipulation du signal.
Google ne se soucie pas si vos images sont générées par AI
Les images générées par l’AI sont devenues courantes dans le marketing, l’éducation et les flux de travail de conception. Ces visuels sont produits par des modèles d’apprentissage en profondeur formés sur des collections d’images massives.
Au cours de la session, Huang a souligné que Google ne se soucie pas de savoir si vos images sont générées par l’IA ou les humains, tant qu’elles transmettent avec précision et efficacement les informations ou racontent l’histoire que vous avez l’intention.
Tant que les images sont compréhensibles, leurs origines d’IA ne sont pas pertinentes. L’objectif principal est une communication efficace avec votre public.
Huang a souligné un exemple d’image d’IA utilisé par l’équipe Google pendant le premier jour de la conférence qui, en attente étroite, a des erreurs visuelles, mais en tant que «accessoire», son travail consistait à représenter un calendrier et n’était pas le principal contenu de la diapositive, donc ces erreurs n’ont pas d’importance.
Image de l’auteur, juillet 2025Nous pouvons adopter une approche similaire à notre utilisation des images générées par l’IA. Si l’image transmet le message et n’est pas le contenu principal de la page, les problèmes mineurs ne conduiront pas à la pénalisation, et n’utiliseront pas les images générées par AI-AI en général.
Les images doivent subir une revue humaine rapide pour identifier les erreurs évidentes, ce qui peut empêcher les erreurs de production.
La surveillance continue reste essentielle pour maintenir la confiance dans vos visuels et protéger l’intégrité de votre marque.
L’API Google Trends a annoncé
Enfin, Daniel Waisberg et Hadas Jacobi ont dévoilé la nouvelle API Google Trends (Alpha). Les caractéristiques clés de la nouvelle API comprendront:
- Les données d’intérêt de recherche à l’échelle cohérentes qui ne recalibrent pas lorsque vous modifiez les requêtes.
- Une fenêtre roulante de cinq ans, mise à jour il y a 48 heures, pour des comparaisons saisonnières et historiques.
- Agrégation du temps flexible (hebdomadaire, mensuellement, annuel).
- Répartis de la région et des sous-régions.
Cela ouvre un monde d’analyse de tendance programmatique avec des mesures fiables et comparables au fil du temps.
Cela se termine le deuxième jour. Demain, nous avons une couverture du dernier jour trois sur Google Search Central Live, avec plus de nouvelles et d’informations.
Plus de ressources:
Image en vedette: Dan Taylor / Salt.Agency

Commentaires