En farfouillant sur le net à la recherche d’un corpus de questions crée par Li et Roth je tombe par hasard sur une page qui m’annonce qu’un corpus de questions non annotées (contrairement à celui de Li et Roth utilisé dans SNoW) est disponible sur AnswerBus.
Du coup je cherche le site et j’ai la bonne surprise de tomber sur un moteur de question réponse.
Bon avant de m’éparpiller je cherche le corpus et effectivement il y a bien un corpus de près de 25000 questions (en anglais) mis à disposition dont voici le lien direct ici
Ce corpus n’est probablement sans défaut car il semblerait que ces questions soient extraites de l’historique des questions posées par les utilisateurs
Ceci fait je peux passer au moteur.
AnswerBus est un système de question-réponse qui va chercher les résultats dans des pages sur le web.
Le système est relativement simple, d’une part les questions sont catégorisées et d’autre part des mots en sont extraits.
AnswerBus sélectionne à partir des informations extraites quels moteurs parmi les cinq qu’il utilise (Google, Yahoo,YahooNews, AltaVista et WiseNut) est le plus apte à répondre à cette question (par exemple si la question porte sur un fait d’actualité YahooNews sera privilégié).
Une fois les documents performants récupérés des passages en sont extraits puis ceux qui correspondent au type de la réponse attendue sont conservés, triés et présentés à l’utilisateur.
On peut aussi voir que le moteur se propose de répondre aux questions formulée en plusieurs langues (Anglais, Français, Espagnol, Allemand et Portugais). Je dois admettre que j’ai eu du mal à formuler une question en français pour laquelle il ne m’a pas renvoyé : “Unfortunately, I don’t know the answer to your question” …
Quand finalement j’obtiens une réponse ce n’est pas bien pertinent.
Dans l’article mis en lien à la fin du post et qui explique comment fonctionne AnswerBus on peut voir que le système se contente de reconnaitre si la langue utilisée est l’anglais. Si ce n’est pas le cas AnswerBus envoit la question à l’outil de traduction Babelfish d’Altavista pour récupérer la version en anglais. Ceci est un peu surprenant car pour m’être beaucoup servi de cet outil je peux dire qu’il n’est pas très performant et que le sens de la phrase est parfois perdu. Comment alors espérer répondre correctement à la question de l’utilisateur? Cependant je pense qu’il y a des chances pour que cette approche ait été mise de côté puisque on constate que les réponses à une question posée en français sont elles aussi en français et ce n’est pas une traduction là aussi puisque lorsque l’on va sur les sites d’où sont issus les réponses on voit qu’ils sont en français… Etonnant.
Toujours d’après ce même article AnswerBus pourrait se targuer de répondre à près de 60% (selon la mesure NIST) des questions écrasant grand nombre d’autres système (tel que QuASM) et avec des temps de réponses très inférieurs dans le pire des cas.
J’ai donc fait deux ou trois tests sur le moteur et effectivement il répond asez bien aux questions en anglais.
Par exemple pour “who is nicolas sarkozy’s wife” (oui je sais il faut que je me renouvel) on a parmis les dix réponses proposées : les deux premières parlent de Cécilia, les trois suivantes de la mère de sarkozy… et ensuite les autres de Carla Bruni. Donc des meilleurs résultats que Powerset (si on met à part l’utilisation de Freebase et que l’on considère juste les pages rapportées).
Donc un moteur sympathique (pas grâce à son interface…), à étudier plus en profondeur !
Pour plus d’informations je vous propose de vous rendre directement sur le site d’AnswerBus où vous pourrez trouver en plus du moteur lui même, des corpus de questions (dont celui cité plus haut) et des publications ayant trait à ce système.
Voici aussi un lien vers l’article pré-cité qui explique rapidement comment fonctionne le moteur et comment sont résolus certaines tâches (comme l’étiquetage d’entité nommée ou encore la résolution des anaphores) ainsi qu’une évaluation du système.
ludo
Bon je n’arrive pas à mettre le lien vers le pdf même en l’ayant trouvé ailleur donc voici directement le lien : http://www.answerbus.com/zheng/HLT2002.pdf
C’bon ça marche. ;p