Outre le fait d’être désormais la propriété de Microsoft, Powerset a la particularité d’effectuer ses recherches en grande partie sur Wikipedia. Une des forces de Powerset est d’aariver parfois à afficher directement une liste de réponses “correctes”, en plus d’un listing classique des fiches correpondantes à la requête.
Par exemple pour la requête “Who is Nicolas Sarkozy’s wife?”, nous allons obtenir ceci dans le cadre des réponses “correctes”.
On voit bien ici que le moteur a interprété “wife” comme étant l’épouse du sujet ou la personne avec qui il vit ; de plus il a pu récupérer deux résultats (actuelle et ancienne femme), ce qui est très pertinent. C’est par contre dommage qu’une interprétation chronologique ne soit pas possible. Par exemple la requête “Who is Nicolas Sarkozy’s former wife” nous retournera exactement le même résultat.
En étant un minimum attentif on peut constater que lorsque une requête est saisie, Powerset recherche les résultats de trois manières différentes :
- en utlisant les articles Wikipédia, comme dit précédemment afin de sélectionner les fiches et les passages pertinents
- avec l’outil Factz qui lui aussi recherche dans Wikipédia et qui prend les requêtes du genre :
sujet relation_sujet_objet objet
cet outil va rechercher dans les fiches Wikipédia les passages où l’on trouve ces trois éléments et avec les mêmes relations - enfin Powerset va utiliser Freebase afin de fournir des réponses exactes comme le montre l’exemple plus haut. Freebase est une base de donnée créée manuellement par les utilisateurs ou à l’aide de bots qui se chargent d’extraire les informations. Contrairement à une fiche Wikipédia où on retrouve les informations sur un sujet ou une personne sous forme de texte non ordonné, Freebase propose ces informations sous forme de tableau structuré. Par exemple on peut voir sur la fiche de Sarkozy une case du tableau spouse dans laquelle les noms de ces deux femmes apparaissent. Powerset ne se fait donc pas l’extraction des réponses exactes dans les fiches mais dans des tableaux structurés. Cependant il sait passer de wife à spouse automatiquement.
La suite des résultats se présente ainsi :
On voit ici des liens vers des fiches Wikipédia, ainsi que des extraits de texte choisis qui ont pu aider à sélectionner ces fiches. Au niveau de ces extraits, on peut voir qu’il fait une erreur sur la première fiche, en sélectionnant Christine de Ganay car elle est proche de “His” (interprété comme étant Nicolas Sarkozy, en vérité nous ne savons pas à qui il est fait référence) et de “wife” ; néanmoins Christine de Ganay n’est pas affichée dans les résultats dits “corrects”.
En cliquant sur la petite flèche juste à gauche du titre, on peut avoir un aperçu de la fiche et du bloc de texte qui a aidé à la sélection de ce résultat. Les blocs intéressants ont été surlignés en jaune afin de les retrouver facilement.
Même si Powerset propose à l’utilisateur d’écrire ces requêtes en langage naturel, on constate que en général le système à une meilleure précision lorsque notre requête se compose de mots clés uniquement. Pour rester sur le même exemple, en écrivant “who is Sarkozy’s wife” on obtient comme premier résultat la fiche de Nicolas Sarkozy, ensuite deux fiches pour Cecilia. Sur la première page de résultats la fiche de Carla Bruni n’apparait pas. (Etonnant car son nom fait parti des trois extraits de la Freebase et est donné comme réponses exactes. Il semblerait donc que Powerset ne tienne pas ou peu compte de ces résultats pourtant présentés comme les réponses exactes.) Si l’on tape uniquement “sarkoy wife” les fiches de Cécilia passent en première position et la fiche de Carla Bruni fait son apparition dans la deuxième moitié des résultats de la première page. De plus en essayant de rajouter les mots manquants jusqu’à arriver à la question en langage naturelle on constate que la liste des réponses n’est en général pas exactement la même, ce qui nous amène à conclure que Powerset ne se contente pas de supprimer les mots outils afin d’obtenir une liste de mots clés. On constate aussi qu’il prend en compte les relations entre les mots, par exemple le s de possession en anglais qui lorsqu’il est ajouté augmente en général la précision. Bien qu’il semble que Powerset prennent en considération les pronoms interrogatifs il est parfois surprenant de constater que si on remplace le who par when,which ou encore where les résultats proposés sont les mêmes avec généralement la bonne réponse en tête (ce qui n’est pas forcément le cas si on a omis le pronom interrogatif)
ex: “manowar’s drummer” donne la bonne réponse en seconde position, idem pour “is manowar’s drummer”.
Par contre si on met l’un des pronoms interrogatifs cités précédemment elle passe en première position, ce qui est étonnant car le batteur de ce groupe n’est pas un objet, encore moins un lieu ou un moment…
Ce moteur propose ensuite plusieurs options intéressantes au niveau de l’accès aux informations contenues dans les fiches. Il propose de voir la liste de tout les liens vers lesquels pointe le document, les images présentes,etc… On peut aussi voir sur la droite un cadre qui nous propose d’accéder à des passages de l’article en cours de lecture en nous en affichant une phrase résumé. De plus un moteur de recherche est aussi disponible pour rechercher une information précise dans l’article.
On peut donc voir que Powerset bien que n’étant pas parfais propose de nombreuses options à l’utilisateur et simplifie l’accès aux informations à l’aide de nombreux outils (Freebase, Factz, …). Ce moteur semble très prometteur au vu de l’avance tant au niveau du traitement des questions que de la présentation des résultats qu’il a sur de nombreux concurrents.
romain & ludo

