Nous l’avons vu dans l’article précédent, Google interroge son index à l’aide de mots-clés, et ne se préoccupe pas de la sémantique de la requête tapée par l’utilisateur. En vérité, cela était sûrement vrai il y a quelques années, mais si l’on regarde d’un peu plus près, certains types de requêtes sémantiques sont déjà gérées, et elles obtiennent des résultats corrects.
Prennons un exemple simple :
Quel est le département d’Aix-en-Provence?
va nous renvoyer en premier résultat :
| Aix-en-Provence — Département: Bouches-du-Rhône (Sous-Préfecture) Selon http://fr.wikipedia.org/wiki/Aix-en-Provence - Autres sources » |
Nous pouvons observer plusieurs choses intéressantes à ce niveau :
- c’est le tout premier résultat, les résultats suivant n’ont quasimment rien à voir (du moins on ne trouve aucune information relative au département, ni dans le titre ni dans la description ).
- l’affichage est différent de l’affichage habituel des résultats, Google nous montre bien qu’il s’agit du résultat, c’est la réponse à notre question.
- Google va chercher sa réponse dans Wikipédia. En fait il extrait carrement la réponse de la fiche concernée. On pourrait imaginer qu’il récupère les deux informations les plus importantes dans la question (i.e. “Aix-en-Provence” ; “département”) et qu’il effectue une mesure de compacité sur “département” dans la fiche d’Aix-en-Provence afin de récupérer la réponse. Mais en réalité, les fiches des villes (notamment) sur Wikipédia contiennent un bloc ”{{Infobox Commune de France}}” qui détaillent toutes les informations principales d’une ville, comme son département ou encore son code postal par exemple.
Il apparait donc évident que la réponse est récupérée à partir des ces données préformatées par les contributeurs de Wikipédia, mais néanmoins cet exemple met en évidence que Google effectue des traitements sur la requête afin de récupérer les mots-clés utilisables par le moteur afin de donner une réponse non ambigüe.
Néanmoins il apparait que Google n’utilise pas toutes les informations présentes dans cette Infobox, sûrement à cause de leurs irrégularités ; cette “feature” ne va donc pas très loin pour le moment, mais elle montre que Google s’intéresse plus que sérieusement aux requêtes sémantiques si l’on en croit les ragots du web.
Romain