Depuis peu, un outil permettant le traitement et l’indexation des données est disponible librement. Il s’agit d’Opencalais, une technologie rachetée par Reuters et mise à disposition de tous gratuitement. Plusieurs applications sont désormais accessibles au public.
Parmi ces applications, l’une va permettre à l’utilisateur de réunir une liste d’ouvrages disponibles dans Amazon à partir d’un sujet décrit dans Wikipédia. Notons d’emblée que cela n’est possible que parce que les trois systèmes impliqués (Amazon, Wikipédia et Opencalais) sont ouverts aux développeurs qui souhaitent les intégrer à leurs applications.
Que fait le système en question? Quand on entre un terme, il recherche la notice dans Wikipédia et l’analyse. Il en tire une liste des termes essentiels. Il va ensuite dans Amazon pour rechercher les mots-clés correspondant et, s’il y a en a, les ouvrages qui traitent du sujet. En un seul clic, on parvient à obtenir une liste de livres disponibles sur un thème, simplement en exploitant des données déjà existantes.
Bien entendu, le résultat n’est pas encore parfait et les sources de l’imperfection peuvent provenir des trois systèmes. Les articles de Wikipédia sont de qualité inégale et pas toujours bien structurés. Amazon est une librairie en ligne et non pas un outil bibliographique. En ce qui concerne l’outil d’analyse, il génère une liste de termes-clés au moyen d’un algorithme. Dans le domaine du Web sémantique (on l’a déjà vu avec les images), il y a deux options: automatisation via des programmes ou recours à l’intelligence humaine via le crowdsourcing. Les deux méthodes ont leurs avantages et désavantages. Cependant la masse des données déjà disponibles sur Internet rend presque indispensable l’utilisation de programmes d’analyse des données.
Aucun commentaire:
Enregistrer un commentaire