Liste de mots-clés contrôlés, taxonomie, ontologie i tutti quanti

Ce n’est pas la première fois que vous êtes confronté à autant de termes barbares. Et pourtant, comme je le prédisais récemment : Le web 2.0 sera sémantique ou ne sera pas. Ce qui veut malheureusement dire qu’il va vous falloir assimiler des termes aussi incongrus que liste de mots-clés contrôlés, taxonomie, ontologie… Pour cela, l’administration anglaise (bravo l’Europe !) nous propose un petit guide rapide du web sémantique avec des définitions très simples : Tomatoes are not the only fruit – a guide to controlled vocabularies.

Pour les néophytes, rappelons que le web sémantique consiste à rajouter une couche d’intelligence au contenu pour que celui-ci puisse être exploité par des opérateurs non-humains (moteur de recherche, agents intelligents…). Pour vous remettre à niveau je vous conseille également un précédent billet : L’art de la taxonomie.

Le web 2.0 sera sémantique ou ne sera pas

Le célèbre magazine en ligne Digital Web Magazine vient de publier un article sur le web nouvelle génération : Web 2.0 for Designers. Il y est (entre autre) question de marquage sémantique, de web service, de syndication de contenu, de meta-données… Bref, du XML à toutes les sauces. Voilà pourquoi je vous le dis : Le web 2.0 sera sémantique ou ne sera pas (d’où le titre du billet !)

Le web sémantique au secours des analystes financiers

Aujourd’hui je tiens à vous présenter le dernier né des langages descripteurs appartenant à la galaxie XML : XBRL (Extensible Business Reporting Language). Ce meta-langage a ainsi pour but de transformer le charabia des rapports annuels et autres publications légales des sociétés cotées en de l’information structurée. Structurée pour quoi ? Et bien tout simplement pour la mettre en forme sur différents supports (pages web, fichier PDF, impression…), pour pouvoir la traiter (génération automatique de graphiques, de tableaux comparatifs…) et pour fluidifier sa circulation (comprenez par là sa diffusion ou plutôt sa récupération par des agents intelligents).

Vous me direz : OK, mais concrètement à quoi ça sert ? Et comme toujours vous auriez bien raison (parce qu’il faut rester pragmatique). Voici donc selon moi les trois promesses du XBRL :

un format unique de reporting. Avec le XBRL, les sociétés côtés disposent d’un format unique pour publier leurs informations légales et financières. Plus besoin de faire une version papier, une version web, une version PDF… l’information n’est stockée qu’une seule fois et elle est ensuite transformée (en HTML via XLST, en PDF via XSL-FO, pourquoi pas en Flash ou en SVG).
une information structurée et disponible. Avec le XBRL, les sociétés rendent leurs informations légales disponibles. Comprenez par là que si un analyste souhaite récupérer une donnée précise (admettons le résultat net de telle filiale en 2003), plus besoin de se palucher le rapport annuel, l’information est à un endroit bien précis.
des possibilités de syndication décuplées. Tout comme les billets de ce blog peuvent être récupérés via le flux RSS, on peut tout à fait imaginer un portail financier récupérant de façon automatisée les données financières des sociétés cotées pour les agréger et en proposer une vision synthétique. Mieux, avec un langage structuré il serait même possible de mettre en oeuvre des agents intelligents (des robots) qui seraient chargés de parcourir les sites des sociétés cotées et de ne rapatrier que les données des sociétés qui correspondent à des critères (toutes les sociétés du secteur agro-alimentaires ayant réalisé un C.A. 2005 supérieur à X avec un résultat supérieur à Y).

Toujours est-il que ce format devrait remporter un vif succès car il s’intègre tout à fait à la politique de transparence de la SEC (l’autorité de régulation des sociétés cotées aux U.S., l’équivalent de notre COB).

Un nouveau portail sur le web sémantique

La chose est assez rare pour le signaler, un portail dédié au web sémantique vient d’être lancé : SemanticWeb.org. Ce portail est encore en phase beta, mais on y trouve entre autre des news, des ressources ainsi qu’un ensemble de vocabulaires liés à la sémantique (FOAF, RDF, Dublin Core…). A suivre, en attendant le lancement officiel…

Un détecteur de métadonnées

Si comme moi, vous vous intéressez au web sémantique, alors vous devez forcement connaître le standard de métadonnées Dublin Core (sinon, allez donc vous renseigner chez OpenWeb). Bref, tout ça pour dire que je viens de découvrir une extension Firefox qui permet de détecter et d’afficher les métadonnées Dublin Core. Ainsi, si vous surfez sur mon site avec cette extension, le petit logo Dublin Core apparaît :

Très pratique en complément du HTML Validator. (via Figoblog)