Dans ce post nous allons voir comment on peut utiliser des règles afin de classifier les questions.
Au cours de mes recherches sur le sujet j’ai trouvé deux systèmes différents qui utilisent un système basé sur l’utilisation de règles et qui sont très semblables.
Le premier est développé par des membres d’AT&T Labs-Research dont A. Singhal utilisé lors de la campagne d’évaluation TREC-8 et qui est une adaptation du système de recherche de documents SMART.
Le second est utilisé dans le moteur QALC développé par l’équipe du Limsi dont Laura Monceaux qui a aussi participé à plusieurs campagnes TREC donc TREC 2000.
Le premier système utilise les règles suivantes :
- Who, Whom -> Personne
- Where,Whence,Whither -> Lieu
- When -> Date
- How few, How great, How little, How many, How much -> Quantité
- How tall, How wide, How high, How big, How far -> Mesure
- How long -> Mesure ou Durée
Voilà pour les cas les plus simples.
Ensuite pour les cas où la phrase débute par Which ou What il est considéré que la classe de la question est du même type que la catégorie à laquelle appartient le premier nom rencontré.
Il y a enfin le cas où il n’y a aucun de ces mots, la stratégie alors adoptée et de prendre the first noun phrase that is an immediate constituent of the matrix sentence is extracted, and its head is used to determine query type, as for What X questions. (si vous pouviez poster un commentaire pour m’aider à comprendre correctement le sens de cette phrase je vous en remercie).
Ils apportent aussi quelques précisions en rajoutant à nouveau quelques règles afin de découper certains de ces cas.
Dans le cas où aucune de ces stratégies n’apportent de solutions ils donnent le même poids à toutes les catégories.
L’approche du second système est très proche du premier système bien que des expressions régulières soient rajoutées dans les règles afin de permettre un affinement de ces règles.
Pour le premier système, lors de cette campagne ils ont put constater qu’il obtenait 62.5% de bonne classification lorsqu’il s’agit de Personnes, 67.5 pour les Lieux, 45.5 pour les Dates, 52.7 pour les Quantités et ensuite de plus faibles scores pour les autres cas voir des scores carrément nuls (égal à 0).
En conclusion on peut voir que les résultats sont assez intéressants au vu de la simplicité des règles. Cependant cela marche plutôt correctement dans ces exemples où l’on a finalement que très peu de catégories différentes. Dans le cas où une plus grande granularité est souhaitée, arriver à concevoir les règles nécessaires à départager les questions doit être nettement plus long et difficile.
Néanmoins, si l’utilisation de ces règles peut être une alternative dans le cadre de notre projet, nous pensons qu’elle ne peuvent et ne doivent pas être une finalité. En effet dans notre cas nous avons une catégorie “Organisation” qui, pour certaines questions, pourrait être confondue avec la catégorie “Personne” si l’on utilisait des règles. Par exemple dans la question : “Qui a construit la Laguna”, une étiquette “Personne” serait automatiquement attribuée et la recherche d’un constructeur de Laguna de type Personne ne donnerait probablement rien, alors qu’il faut bien évidemment trouver l’organisation qui produit (ou a produit) la Laguna.
Ceci va naturellement nous mener à considérer ce que pourrait nous apporter l’apprentissage automatique dans ce domaine.
Voici des liens vers des articles détaillants les deux systèmes :
Pour smart : http://trec.nist.gov/pubs/trec8/papers/att-trec8.pdf
Pour qacl : http://tln.li.univ-tours.fr/Tln_Colloques/TALN2001-RECITAL2001/Actes/tome1_PDF/partie4_p403_482/art6_p455_462.pdf
ludo & Romain
0 Réponses vers “L’utilisation de règles pour la catégorisation des questions”