Connaissez-vous les micro-formats ?

Le web est en pleine crise de croissance : trop de contenus, trop de sites, les utilisateurs en quête d’informations précises sont noyés sous la masse. Il apparaît ainsi comme une nécessité de pouvoir industrialiser la recherche et la collecte d’informations. Les moteurs de recherche (Google, Yahoo!…) et outils de syndication (Copernic…) sont là pour nous aider mais quid si votre besoin est plus précis ? Seuls les agents intelligents sont capables de se substituer à un opérateur humain pour effectuer une recherche réellement fine mais voilà, sans données structurées ils ne peuvent pas travailler.

Dans ce contexte, faut-il abandonner l’internet tel que nous le connaissons et en bâtir un nouveau sur le principe du web sémantique ? Pas forcément. Et c’est là où les micro-formats entrent en scène et apportent une solution intermédiaire. Mais avant de nous plonger dans le sujet, revenons sur quelques notions-clés.

C’est quoi du contenu non sémantique ?

Mon CV est un bon exemple de contenu non sémantique : c’est une simple page HTML qui représente quelque chose pour un opérateur humain (un recruteur y retrouve tout de suite ses marques) mais qui ne veut rien dire pour un robot. Après tout, cette page n’est en fait qu’une suite de caractères.

C’est quoi du contenu sémantique ?

Mon profil FOAF est un très bel exemple de contenu sémantique : du contenu structuré à l’aide de balises descriptives (des méta-données) qui ont beaucoup de sens pour un robot (il va parcourir le fichier et ne récupérer que les données qui sont inclues dans certaines balises). Par conte pour un être humain c’est du charabia, essayez donc de lire se fichier avec votre bloc note et vous verrez !

Les micro-formats : une solution semi-sémantique

Le principe des micro-formats est d’associer des micro méta-données à du contenu non structuré existant, c’est à dire donner un peu de sens à des pages HTML sans avoir à les réécrire ou à les transformer. Pourquoi un peu ? Parce que ces micro-formats prennent la forme de petites propriétés que l’on rajoute à des balises HTML existantes. Et dans une propriété, on ne peut pas dire grand chose (juste ce qu’il faut). Par exemple le micro-format XFN permet d’ajouter une simple notion de relation à une liste de liens (blogroll). Ça ressemble à du FOAF mais en beaucoup plus simpliste.

Quel intérêt ?

Rendre exploitable par des robots du contenu à la base créer pour des humains. Exploitable veut dire qu’à partir d’une requête structurée il est possible de rapatrier des informations précises. Par exemple va sur le site XX pour parcourir sa liste de liens et me rapatrier tous les sites dont les auteurs se connaissent personnellement. Ça n’a l’air de rien, mais ce type de requête structurée peut vous éviter d’avoir à investir des milliards de dollars dans un algorithme d’indexation plus performant que celui de Google.

Est-ce a fin du web sémantique ?

Pas du tout, au contraire ce n’est que le début. Vous comprenez bien que les micro-formats ne rendent pas le même service que les langages structurés (FOAF, HR-ML, XBRL…). C’est en quelque sorte une étape intermédiaire vers de la structuration plus formelle du contenu.

Et maintenant ?

Il existe une multitude de micro-formats, essayez donc d’en trouver un qui peut répondre à un besoin spécifique de recherche. Je vous recommande le site de référence suivant : Microformats.org ainsi que le site de l’Ouvre boîte qui en parle également.

MAJ (26/08/2005) : Pour en savoir plus, voici un très bon article sur le sujet : Usable Microformats.

Un commentaire sur “Connaissez-vous les micro-formats ?

  1. Je ne sais pas si c’est effectivement ce que tu voulais faire passer mais en lisant l’article, on a l’impression que le HTML n’a pas de valeur sémantique… Dans ce cas, j’aurais tendance à répondre : « Ah bon ? ». Et puis un fichier HTML comme un fichier FOAF sont constitués de suites de caractères, non ? :)

  2. Non Vincent, à part les balises titre, commentaire ou formulaire le HTML n’a aucune valeur sémantique. Sur la page de mon CV, les titres ‘Formation’ et ‘Langues’ sont interprétés de la même façon par un robot. Ce qui n’est pas du tout le cas avec un fichier HR-XML ou FOAF qui reposent sur un système de balises descriptives. /Fred

  3. Trés à la mode tout ça en ce moment… Le problème est qu’on revient à des choses qu’on avait abandonnées : les tags META des pages HTML. (Les moteurs de recherche n’en tiennent plus compte) Il faudrait peut être revenir au pourquoi de l’indexation du texte même des pages HTML. Parce que les auteurs mettent bien ce qu’ils veulent dans les données sémantiques !

  4. Les moteurs de recherche n’en tiennent plus compte, bien sûr qu’ils n’en tiennent plus compte, mais tout l’intérêt des micro-formats est de rajouter par-ci par-là des micro-couches sémantiques (les propriétés rajoutées aux tags) à destinations d’agents intelligents et non des moteurs de recherche « généralistes ». /Fred

  5. XFN était le plus mauvaix choix pour parler des micro-formats. C’est un peu comme FOAF pour le Web sémantique, c’est pas un bon choix non plus. Les notions de calendrier en revanche sont beaucoup plus intéressantes, celles de revues de livres aussi. Je trouve l’idée intéressante surtout associée à GRDDL pour transformer l’information en RDF. En revanche je ne trouve pas cela beaucoup plus humain à taper dans le code source. Beaucoup trop d’informations, de noms de class, etc. Avec un gabarit pas de problèmes en revanche, mais si on passe par un gabarit, on se demande alors de l’intérêt des microformats par rapport à une solution RDF, donc on tourne en rond encore une fois. Un autre détail, tout comme en RDF, je n’ai pas toujours pas vu de choses utiles pours les utilisateurs. Pour l’instant les microformats sont utiles pour les moteurs de recherche qui ont une plus grande facilité à faire des profils marketing… L’utilité pour l’utilisateur pour l’instant elle est nulle.

  6. Des liens Karl, des liens ! A quoi ça sert de nous parler de micro-formats pour les calendrier et les revues de livres si tu ne nous donnes pas plus d’explications ou de liens ? /Fred

  7. Réflexion intéressante également. http://www.amk.ca/xml/reviews.html [[[ A different approach is to use a microformat, taking a subset of XHTML and defining a set of fields that are signalled using the CLASS attribute. hReview is a microformat for reviews. I actually began converting my book reviews to use hReview, but gave up when it became clear that the specification wasn’t very clear and that violence would need to be done to my HTML format to supply all the hReview fields. My largest reason to go back to RDF is that I would then have to write hReview processing code to do anything with my reviews, which is much more difficult and less extensible than just running everything through an already-written RDF parser. ]]]

  8. Salut tout le monde!! Je suis très intéressée par l’utilisation des microformats, mais j’aimerai savoir si le fait de mélanger le contenu et les métadonnées n’est pas un peu « dangereux », si on veut utiliser une autre techno après, il faut effacer toutes les lignes (ou les micro metadata ) qu’on a rajouté dans le code?? J’ai une autre question concernant le fichier résultat après l’ajout des meta datas, comment est ce qu’on l’interroge? d’après ce que j’ai compris, on n’extrait pas les métadata du fichier sous la forme d’un document rdf, donc on n’utilise pas SPARQL ou un outil dans ce genre. Comment ça marche concrètement? merci !

Répondre

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l'aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s