Google a publié un document de recherche décrivant comment il extrait les «services offerts» des informations des sites commerciaux locaux pour l’ajouter aux profils commerciaux dans Google Maps et la recherche. L’algorithme décrit des facteurs de pertinence spécifiques et confirme que le système est utilisé avec succès depuis un an.

Ce qui rend ce document de recherche particulièrement notable, c’est que l’un des auteurs est Marc Najork, un chercheur distingué chez Google qui est associé à de nombreuses étapes dans la recherche d’informations, le traitement du langage naturel et l’intelligence artificielle.

Le but de ce système est de permettre aux utilisateurs de trouver plus facilement les entreprises locales qui fournissent les services qu’ils recherchent. Le document a été publié en 2024 (selon les archives Internet) et est datée de 2023.

Le document de recherche explique:

«… Pour réduire les efforts des utilisateurs, nous avons développé et déployé un pipeline pour extraire automatiquement les types de travaux à partir de sites Web d’entreprise. Par exemple, si une page Web appartenant à une entreprise de plomberie déclare:« Nous fournissons une installation de toilettes et un service de réparation de robinets », notre pipeline produit l’installation des toilettes et la réparation du robinet comme types de travaux pour cette entreprise.». « 

Le système utilise Bert

Google a utilisé le modèle de langue Bert pour classer si les phrases extraites des sites Web d’entreprise décrivent les types de travaux réels. Bert a été affiné sur des exemples étiquetés et a donné un contexte supplémentaire tel que la structure du site Web, les modèles d’URL et la catégorie commerciale pour améliorer la précision sans sacrifier l’évolutivité.

Développer un système de recherche local

La première étape pour créer un système pour ramper et extraire les informations de type de travail a été de créer des données de formation à partir de zéro. Ils ont sélectionné des milliards de pages d’accueil qui sont répertoriées dans les profils commerciaux Google et ont extrait les informations de type de travail des tables et des listes formatées sur des pages d’accueil ou des pages qui étaient à un clic loin des pages d’accueil. Ces données de type d’emploi sont devenues l’ensemble de semences de types d’emploi.

Les données de type de travail extraites ont été utilisées comme requêtes de recherche, augmentées avec une expansion de requête (synonymes) pour étendre la liste des types de travaux pour inclure toutes les variations possibles des phrases de mots clés de type de travail.

Deuxième étape: résoudre un problème de pertinence

Les chercheurs de Google ont appliqué leur système sur des milliards de pages et cela n’a pas fonctionné comme prévu car de nombreuses pages avaient des phrases de type de travail qui ne décrivaient pas les services offerts.

Le document de recherche explique:

«Nous avons constaté que de nombreuses pages mentionnent des noms de type de travail à d’autres fins comme donner des conseils de vie. Par exemple, une page Web qui apprend aux lecteurs à gérer les punaises de lit peut contenir une phrase comme une solution est d’appeler les services de nettoyage à domicile si vous trouvez des punaises de lit dans votre maison. Ils fournissent généralement des services comme un contrôle des punaises de lit

Limiter le rampage et l’indexation de l’identification des phrases de mots clés de type de travail ont entraîné de faux positifs. La solution était d’incorporer des phrases qui entouraient les phrases de mots clés afin qu’ils puissent mieux comprendre le contexte des phrases de mots clés de type de travail.

Le succès de l’utilisation du texte environnant s’explique:

«Comme le montre le tableau 2, JobModelsArround fonctionne beaucoup mieux que JobModel, ce qui suggère que les mots environnants pourraient en effet expliquer l’intention des mentions de type de travail de semence.

Aperçu du référencement
L’algorithme de recherche local décrit est à l’exclusion délibérément de toutes les informations sur la page et se concentre sur les phrases de mots clés de type de travail et les mots et phrases environnants autour de ces mots clés. Cela montre l’importance de la façon dont les mots autour des phrases de mots clés importants peuvent fournir un contexte pour les phrases de mots clés et faciliter la compréhension des robots de Google de la page sans avoir à traiter toute la page Web.

Aperçu du référencement
Un autre aperçu est que Google n’indexe pas la page Web entière dans le but limité d’identifier les phrases de mots clés de type de travail. L’algorithme recherche la phrase de mots clés et les phrases de mots clés environnantes.

Aperçu du référencement
Le concept d’analyse uniquement une partie d’une page est similaire à l’annotation centrale de Google où une section de contenu est identifiée comme le sujet principal de la page. Je ne dis pas que ce sont liés. Je souligne simplement une fonctionnalité parmi beaucoup de personnes où un algorithme Google zéros dans une seule section d’une page.

Le système d’extraction peut être généralisé à d’autres contextes

Une découverte intéressante détaillée par le document de recherche est que le système qu’ils ont développé peut être utilisé dans des domaines (domaines) autres que les entreprises locales, telles que «la recherche d’expertise, l’extraction d’informations juridiques et médicale».

Ils écrivent:

«Les leçons que nous avons partagées dans le développement du pipeline d’extraction à grande échelle à partir de zéro peuvent se généraliser à d’autres tâches d’extraction d’informations ou d’apprentissage automatique. Ils ont des applications directes vers des tâches d’extraction spécifiques au domaine, illustrées par la recherche d’expertise, l’extraction d’informations légales et médicales.

Les trois leçons les plus importantes sont:

(1) L’utilisation des propriétés de données telles que le contenu structuré pourrait atténuer le problème de démarrage à froid de l’annotation des données;

(2) la formulation de la tâche en tant que problème de récupération pourrait aider les chercheurs et les praticiens à gérer un large ensemble de données;

(3) Les informations sur le contexte pourraient améliorer la qualité du modèle sans sacrifier son évolutivité. »

L’extrait de type de travail est un succès

Le document de recherche indique que leur système est un succès, il a un niveau élevé de précision (précision) et qu’il est évolutif. Le document de recherche indique qu’il est déjà utilisé depuis un an. La recherche est datée de 2023 mais selon les archives Internet (Wayback Machine), elle a été publiée en juillet 2024.

Les chercheurs écrivent:

« Notre pipeline est exécuté périodiquement pour maintenir le contenu extrait à jour. Il est actuellement déployé en production, et les types de travaux de sortie sont apparus à des millions d’utilisateurs de recherche de Google Recherche et MAPS. »

Plats à emporter

  • L’algorithme de Google qui extrait les types de travaux à partir de pages Web
    Google a développé un algorithme qui extrait les «types de travaux» (c.-à-d. Les services offerts) à partir de sites Web d’entreprise à afficher dans Google Maps and Search.
  • Extraits de pipeline de contenu non structuré
    Au lieu de s’appuyer sur des éléments HTML structurés, l’algorithme lit le contenu en texte libre, ce qui le rend efficace même lorsque les services sont enterrés dans des paragraphes.
  • La pertinence contextuelle est importante
    Le système évalue les mots environnants pour confirmer que les termes liés aux services sont réellement pertinents pour l’entreprise, améliorant la précision.
  • Potentiel de généralisation du modèle
    L’approche peut être appliquée à d’autres domaines comme l’extraction d’informations légales ou médicales, montrant comment il peut être appliqué à d’autres types de connaissances.
  • Haute précision et évolutivité
    Le système est déployé depuis plus d’un an et fournit des résultats évolutifs et de haute précision sur des milliards de pages Web.

Google a publié un document de recherche sur un algorithme qui extrait automatiquement les descriptions de services des sites Web d’entreprise locaux en analysant les phrases de mots clés et leur contexte environnant, permettant des annonces plus précises et à jour dans Google Maps et Recherche. Cette technique évite la dépendance à la structure HTML et peut être adaptée à une utilisation dans d’autres industries où l’extraction d’informations à partir de texte non structuré est nécessaire.

Lisez le résumé du document de recherche et téléchargez la version PDF ici:

Extraction du type d’emploi pour les entreprises de services

Image en vedette par Shutterstock / Vidi Studio

Commentaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Se connecter

S’inscrire

Réinitialiser le mot de passe

Veuillez saisir votre identifiant ou votre adresse e-mail. Un lien permettant de créer un nouveau mot de passe vous sera envoyé par e-mail.