Tout d’abord qu’entendons nous par “classification des questions” ?
La classification consiste par différents moyens à définir ce que l’utilisateur espère trouver comme type de réponse, c’est à dire que l’on associe à une question l’étiquette sémantique de la réponse attendue.
Par exemple:
- What athlete makes the most money from sports merchandise sales ? -> PERSonne
- What is the name of the city that Maurizio Pellegrin lives in ? -> LOC et plus précisément une ville
Tout d’abord pourquoi nous intéressons nous à ce sujet?
La raison est simple, dans le cadre de notre projet nous devons développer un système permettant de passer d’une requête en langage naturel à des informations permettant d’interroger les moteurs développés par Eric Charton regroupés dans la projet NLGbAse (Natural Language Generation and Natural Language Understanding).
Ces trois moteurs sont encore en développement et cherche les réponses sur Wikipédia.
Le premier des trois moteurs est un moteur classique, qui prend des mots clés et qui cherche les fiches nommées ainsi.
Le second prend en plus d’une liste de mots clés la catégorie de la fiche recherchée. (chaque fiche s’est vue attribuée une catégorie sémantique (ex: la fiche “Londres” -> Lieu). Par exemple si je cherche à savoir qui est le guitariste des Sex Pistols je dois indiquer que je cherche une PERSonne et mettre en mots clés guitariste Sex Pistols. Sur cet exemple la fiche des Sex Pistols sort en premier et on peux y trouver la réponse et ensuite en deuxième position apparait la fiche de Steve Jones qui est la personne recherchée.
Le troisième moteur est un système de question réponse. On rentre à nouveau la catégorie de la réponse recherchée mais aussi la fiche dans laquelle l’information doit être recherchée et enfin les mots près desquels l’information doit se trouver. Dans notre exemple : PERSonne, Sex Pistols et guitariste;guitare.
On voit donc que dans les deux derniers moteurs si l’on veut être capable de passer de la question “Qui est le guitariste des Sex Pistols?” il nous faut arriver à déterminer que l’utilisateur recherche une PERSonne et donc à arriver à classifier les questions en fonctions du type de réponses souhaitées.
Donc pour notre projet, arriver à une classification des questions performante est un point capital, car si une question est mal classifiée alors les chances d’obtenir la bonne réponse est presque nulle (voire nulle si les moteurs ne font pas aussi d’erreurs).
On peut voir deux principaux avantages à utiliser la classification des questions.
Le premier est que cela fixe des contraintes sur la réponse attendue et donc les réponses sélectionnées ont plus de chances d’être celles souhaitées par l’utilisateur.
Par exemple sur la question : « Dans quelle ville est né Jean Sebastien Bach ? ». Avec une classification on peut déterminer que la réponse souhaitée doit être du type lieu mais plus précisément une ville. Par exemple si le système trouve pour résultats deux fiches : l’une est celle d’Eisenach (ville) et celle de l’Allemagne (pays) on sait qu’il faut sélectionner Eisenach.
Le second avantage que l’on peut voir est la possibilité d’avoir des méthodes d’extractions des réponses (dans les systèmes de question réponse) différents selon la catégorie de la question. Par exemple la question est « Quand est né Poutine ? » en sachant que ce qui est attendu est une date mais plus particulièrement de naissance et en sachant que pour Wikipédia les dates de naissances d’une personne apparaissent souvent en début de document de la manière suivante « Nom_Personne (Date_Naissance – » on pourrait prévoir un système d’extraction probablement plus performant.
Dans le cadre de notre projet on voit bien que le premier avantage nous intéresse beaucoup et que le second va peut-être nous permettre de déterminer les mots près desquels doit se trouver la réponse attendue pour le troisième moteur.
La classification des questions est donc un point central de notre projet (au même titre que l’extraction de focus) et nous allons donc axer une grande partie de nos recherches et expérimentations sur ce domaine.
ludo
0 Réponses vers “Introduction à la Classification des questions”