Hakia est, au même titre que Powerset, un moteur de recherche supportant les requêtes en langage naturel.
Le web semantique est actuellement en plein essor, et les sociétés misent beaucoup dessus. Nous avons vu que Powerset était maintenant propriété de Microsoft qui intègre leur technologie dans la nouvelle version du moteur LiveSearch, c’est également le cas de AskJeeves qui héberge actuellement Hakia.
Au premier abord, Hakia ressemble à Powerset : lorsqu’on effectue une recherche, les passages intéressants répondant à notre requête sont surlignés en jaune, et des liens sont présents vers des pages externes. Mais là où Powerset cherche dans des fiches Wikipédia, Hakia ne se limite pas à une seule source, et indexe le web au même titre que les moteurs de recherche habituels.
Seulement il se différencie par trois points :
- les résultats proviennent de sites web dits “crédibles” recommandés,
- ils font partie des informations les plus récentes disponibles,
- et (selon Hakia), correpondent parfaitement à la requête.
Les résultats sont ordonnés en plusieurs parties : les résultats provenant du Web, ceux provenant des sites crédibles d’Hakia, des images et des news.
Par delà ces petites innovations, Hakia propose une nouveauté dans le monde des moteurs de recherche : son indexation se fait non pas sur des critères de popularité, mais bien à partir de critères sémantiques. Ils ont en effet développé un tout nouveau moteur d’indexation : QDEX (Query Detection and Extraction). Durant l’indexation, chaque page, HTML compris, est analysée et l’algorithme extrait toutes les requêtes qui pourraient permettre d’aboutir à cette page.
Afin de ne pas tomber dans des problèmes d’explosion d’espaces combinatoire, Hakia utilise un algorithme permettant la décomposition sémantique des phrases, qui s’apparait à une analyse morpho-syntaxique. Cet algorithme est proposé par OnthologicalSemantics.
La deuxième nouveauté d’Hakia est son système de classement des résultats par la sémantique, ils utilisent pour cela leur algorithme SemanticRank. Le score final d’un document est calculé à partir d’une analyse conceptuelle avancée (et morphosyntaxique) de la requête et des meilleurs phrases des paragraphes renvoyés par l’algorithme QDEX qui correspondent à la requête.
Revenons maintenant au moteur en lui-même.
En pratique, si la réponse est parfois difficilement visible au travers des extraits des résultats affichés, la précision du moteur ( = la pertinence des résultats en fonction de leur rang d’apparition) est très bonne après quelques tests. De plus les images affichées sont toujours très pertinentes, et il y a peu d’erreurs de ce côté là.
Par exemple pour la requête “Who is Metallica’s singer?” nous pouvons voir ceci :

Comme il a été dit précédemment, la réponse n’est pas directement visible, mais on peut la trouver relativement facilement en ouvrant les différents liens.

Ici, les trois images affichées par le moteur correspondent effectivement à notre question, il n’y a pas d’erreur.

Hakia nous affiche ici également un extrait d’un article récent en rapport avec le sujet de notre question.
Les créateurs d’Hakia se basent sur le long terme, en affirmant haut et fort que les moteurs de recherche “traditionnels” ne pourront pas tenir la comparaison avec une recherche sémantique, et qu’ils ne pourront répondre qu’aux requêtes les plus populaires quand les utilisateurs auront reconnu la valeur de la recherche sémantique.
Romain
Bonjour,
J’ai écrit un article sur le sujet de l’avenir du référencement et je parle entre autre de Powerset et Hakia:
http://www.camilleroux.com/2009/03/15/avenir-du-referencement-est-semantique/
Je suis curieux de savoir ce que vous en pensez.