Culture.fr

Articles

Qu’est-ce que le Web Sémantique ?

Pareille question n’aurait eu d’écho, il y a quelques années à peine, qu’au sein de la communauté des chercheurs attachés à transformer une vision pleine de promesses en réalité tangible. Aujourd’hui, avec l’arrivée à maturité de ces technologies, l’intérêt de plus en plus marqué à leur égard des grandes enseignes telles que Facebook, Google, Microsoft ou Yahoo!, ou encore le développement croissant de l’Open Data, un cap a semble-t-il été franchi. Aussi est-il temps de revenir sur ce que ce terme désigne afin de lui restituer son épaisseur historique et sa cohérence – le succès d’une expression coïncidant souvent, dans une certaine mesure, au moins avec son dévoiement.

Navigateurs, Moteurs, Réseaux sociaux…

Depuis ses origines, le Web, création de Sir Tim Berners-Lee dont les premiers balbutiements  remontent à 1989, a vu se succéder au fil des conflits commerciaux qu’ils ont engendré, des paradigmes successifs dont aucun ne semble laisser la part belle au Web Sémantique. Depuis la guerre ouverte que se sont livrés les navigateurs Netscape et Internet Explorer (précédée par la volonté des créateurs de Mosaic de s’emparer littéralement du Web), jusqu’à la titanomachie actuelle opposant Facebook à Google pour le contrôle des réseaux sociaux, en passant par la bataille des moteurs de recherches dont la firme de Mountain View  est sortie vainqueur, du moins en Europe et plus particulièrement en France, fautes d’alternatives crédibles. Sans oublier les prodromes de lutte, déjà visibles, autour du cloud, des applications mobiles et bientôt des WebTVs.

Une telle succession d’acteurs et de modèles pourrait laisser penser que le Web s’inscrit dans une temporalité essentiellement dominée par les révolutions. Pourtant, cette vision tend à masquer l’essentiel. Ce qui, sous cette écologie fluctuante d’acteurs, d’usages et de dispositifs, semble demeurer relativement stable : son architecture. Quiconque entend s’intéresser au Web Sémantique devra donc porter son regard ailleurs, en quête de stabilité, afin de comprendre ce qui s’apparente bien davantage à une révolution graduelle, préparée de longue date.

Certains récits présentant cette évolution ont acquis une valeur proverbiale. Ainsi, à un Web 1.0, « de documents », aurait succédé un Web 3.0, « Sémantique ». Mais alors, où situer dans ces conditions le Web social ? S’agit-il d’une invention récente, celle que l’on a baptisée, avec le succès que l’on sait, Web 2.0, synonyme d’ouverture à la contribution des internautes ? Ce serait aller vite en besogne et oublier du même coup que le Web initialement conçu par Tim Berners-Lee comportait déjà la possibilité d’éditer les pages consultées. On parle à cet égard de Read-Write Web. Autrement dit, un Web de lecture et d’écriture, où nul ne reste cantonné à la place du spectateur. Si ces fonctions ont finalement été abandonnées dans la version grand public du Web[1], n’oublions pas que les forums, listes de discussions et autre tchats ont très vite ouvert la voie aux échanges. Par conséquent, l’aspect social du Web n’est sans doute pas à mettre au même niveau que ses dimensions documentaires ou Sémantique. De même que le Web 1.0 n’était pas a-social, en attente de lieux d’échange que seul le développement des technologies AJAX, de mises à jour asynchrones, typiques du Web dit 2.0, lui auraient fournis, de même, il est fort à parier (ce qui n’interdit pas de s’en soucier ni d’œuvrer en ce sens) que le Web 3.0 ne trahira pas la capacité du Web à constituer un lieu d’échange sans équivalent.

Architecture et écologie du Web

Au plan architectural, ces distinctions n’ont à vrai dire guère de sens. Par architecture du Web il faut ici entendre les principaux standards qui le définissent : les URIs, le protocole HTTP et des langages de type HTML ou, aujourd’hui, RDF. Les premières constituent les identifiants du Web (généralement connues pour être ses adresses, les URLs, même si le terme n’est plus en usage dans les RFCs[2] depuis une bonne quinzaine d’années et ne le fut en fin de compte qu’épisodiquement[3]). Le second n’est autre que le protocole qui gère les échanges client-serveur. Quant au deux derniers, il s’agit de langages, langage « documentaire » pour HTML et langage de description pour RDF.

Il manque toutefois à ce tableau très bref un terme important que le W3C n’a jamais standardisé – et pour cause. Il s’agit des « ressources ». Tout ce qui est doté d’une identité sur le Web, à savoir tout ce qui est identifié par une URI, est une ressource. Nous n’entrerons pas ici dans les – nombreuses – questions philosophiques posées par cette notion, si ce n’est pour en mesurer l’importance. La révolution initiée par Tim Bernes-Lee a consisté pour une large part à connecter un système d’hypertexte à Internet. Le Web apparaît donc comme un hypertexte décentralisé. Nuance d’une importance telle qu’elle en modifie la « nature » en profondeur. En lieu et place de documents consultable localement, dont on peut suivre et attester des modifications dans le temps, le Web s’est très tôt coupé de sa mémoire en choisissant d’autres unités de base. En témoignent la possibilité de rencontrer des phénomènes tels que l’erreur 404. Des liens peuvent se briser sans que le système ne s’effondre nullement. C’est dire également, en contrepartie, que n’importe qui peut publier des contenus sur le Web, sans en référer à aucune instance soucieuse de maintenir une cohérence par le haut…

En prenant pour unité non le document mais la ressource, niveau plus abstrait, irréductible aux fichiers présents sur un serveur, le Web définit des critères d’identité propre et, par-là même, le niveau qui est le sien : celui de l’universel par opposition au local. Le local, ici, n’est autre que ce qu’un serveur envoie à un navigateur avant de s’afficher à l’écran, en réponse à une requête. Ce que les spécifications nomment une « représentation » (en un sens bien particulier). L’universel, c’est ce que l’on retrouve dans le « U » d’URI (avant qu’il ne soit remplacé par Uniform pour des raisons diplomatiques). « Universel », ici, signifie qu’une ressource est dotée d’un certain sens, qui demeure peu ou prou constant quelles que soient les représentations transmises par un serveur. Celles-ci sont susceptibles d’évoluer dans le temps ou de façon ponctuelle, selon les spécificités de la requête posée.

Ainsi, la page d’accueil du journal Le Monde sera-t-elle une ressource. Mais nul ne peut accéder « à la page d’accueil du Monde » conçue dans toute sa généricité et son universalité[4]. On y accède à un moment donné, les représentations de cette ressource variant au fil du temps, au rythme de la succession des titres de l’actualité à court terme, de celui des changements de chartes graphiques, à plus long terme.

Par ailleurs, une fonctionnalité du protocole HTTP permet de spécifier certains paramètres de requête afin qu’une représentation apparaisse dans un certain format, une langue plutôt qu’une autre, ou réponde à certaines conditions d’accessibilité. C’est ce que l’on appelle la « négociation de contenu » (content negotiation ou « conneg », un concept anticipé par System 33 crée par Steve Putz au célèbre PARC[5], et dont les principes furent très tôt présentés à Tim Berners-Lee lors d’un séjour aux Etats-Unis à l’invitation de Larry Masinter).

On comprend mieux pourquoi l’unité de base du Web ne saurait équivaloir au fichier sur le serveur, non plus qu’au document : générique, la ressource ne saurait se réduire à son expression instantanée. Elle génère bien plutôt des représentations multiples, sans jamais s’y réduire. Au contraire, elle les unifie (ce que laisse voir, très partiellement, la Wayback Machine d’Internet Archive[6] : lorsqu’on parle de « la page d’accueil du Monde », c’est une manière d’unifier, selon une règle donnée, l’ensemble des représentations générées dans le passé et susceptible de l’être au présent et à l’avenir).

Bien sûr, certaines « pages » paraissent plus statiques. Cependant, du point du vue du protocole, et c’est en cela que le Web a renoncé à l’origine à conserver sa mémoire (Internet Archive ou Google, via son cache, s’en charge à sa place – là encore, de manière très incomplète), cela ne fait aucune différence. Il est donc impossible de déterminer si un « document » est un document vivant ou un document mort[7], selon l’expression de Tim Berners-Lee. Autrement dit, le document mort n’est qu’un cas limite, asymptotique, d’un Web qui, dès ses origines, était bel et bien dynamique.

Devant pareil constat, les architectes du Web tirèrent les conclusions qui s’imposaient. A l’époque, les URIs étaient encore des URLs, des adresses. Il apparut néanmoins bien vite que les ressources auxquelles elles étaient censées donner accès… étaient précisément tout ce qu’il y a de plus inaccessibles, car abstraites elles-mêmes. Seules les « représentations »[8] transitent en effet sous une forme physique sur le réseau. En d’autre terme, le Web a toujours été un Web de ressources inaccessibles dont, en définitives, seules les représentations s’échangent entre clients et serveurs. Conséquence immédiate, dès la fin des années 90 on ne parla plus d’URLs mais d’URIs car le principe d’identification des ressources (et non l’adressage des documents) était désormais acquis (le glissement du document vers la ressource coïncidant avec l’adoption définitive des URIs en lieu et place des URLs). Dès lors qu’une ressource n’est de toute façon jamais accessible, fut-elle une « page » comme celle du Monde ou une personne, on ne peut plus distinguer les URIs qui identifient de soi-disant documents de celle qui identifient des choses. Dans les deux cas, elles identifient des ressources, quelles qu’elles soient, et donnent accès à leurs représentations[9].

Figure 1 : Nicolas Delaforge, ingénieur de recherche à l’INRIA de Sophia Antipolis, et Fabien Gandon, co-responsable de l’équipe Edelweiss (également à l’INRIA de Sophia Antipolis), ont proosé de distinguer des grands types de ressources dites « informationnelles ». Sans définir cette notion, disons simplement qu’il s’agit d’hybrides formés à partir de trois grands types originaires : les « pages », les données et les services. Cf. A. Monnin et N. Delaforge, « Modéliser la ressource Web, contextualiser la référence », Sciences Humaines et Patrimoine Numérique, journée d’étude organisée en partenariat entre Ina-Sup et l’Université Paris Diderot (à paraître aux éditions INA-L’Harmattan).

web SEMANTIQUE et WEB sémantique

En 1994, dans ce qui demeure probablement la première et donc la plus ancienne présentation publique du Web Sémantique[10], Tim Berners-Lee affichait sa volonté de disposer, à l’avenir, d’un moyen de représenter le contenu des documents accessibles sur le Web.

Figure 2 : “Adding semantics to the web involves two things: allowing documents which have information in machine-readable forms, and allowing links to be created with relationship values. Only when we have this extra level of semantics will we be able to use computer power to help us exploit the information to a greater extent than our own reading. (…) the abstract space of web information is linked to reality. By taking verifiable responsibility for web statements, a party guarantees an isomorphism between the web and reality.” Tim Berners-Lee[11].

La structuration de l’information documentaire au moyen du langage HTML, elle-même progressivement affinée par la séparation fond/forme, conséquence de l’introduction des CSS, ne suffisait donc plus. Il fallait désormais disposer d’un langage de représentation des ressources permettant de décrire à peu près n’importe quoi pourvu qu’on le dote des vocabulaires adéquats. Ce format n’est autre que RDF (Resource Description Framework)[12]. Le Web Sémantique a consisté à lui adjoindre une famille de protocoles et de standards destinés à en généraliser l’usage.

Dans un premiers temps, ce programme de recherche fut largement influencé par d’anciens tenants de l’intelligence artificielle. Le fameux article de Tim Berners-Lee, James Hendler et Ora Lassila paru dans Scientific American en 2001, demeure l’expression la plus exacerbée de cette tendance à mettre en avant un web SEMANTIQUE. Vision déformante s’il en est, mettant essentiellement l’accent sur les langages de représentation des connaissances et l’automatisation des procédures de recherche, réminiscence des systèmes experts issus de l’IA.

C’est peu de dire que cette vision n’a guère séduit. Berners-Lee est d’ailleurs revenu sur l’emploi du mot sémantique pour en diminuer la portée :

« Le terme sémantique prête un peu à confusion car la sémantique s’intéresse au sens du langage pour en déduire des constructions logiques. Du coup, certains ont pensé qu’il s’agissait d’un Web qui permettrait par exemple d’effectuer des recherches sur Internet en posant des questions sous forme de phrases, en langage naturel. Or ce n’est pas son but. En fait, nous aurions dû l’appeler dès le départ « Web de données ». Mais il est trop tard pour changer de nom. »[13]

Il faut dire, et c’est bien le paradoxe d’une histoire qui n’est pas à sens unique,  que de nombreux traits du Web Sémantique minaient une telle vision prêtant le flan à la caricature (on pense aux attaques très médiatisées de Clay Shirky[14]). Le but de ces technologies n’a en effet jamais été de proposer une vision du monde unitaire et totalisante. Mieux, le Web Sémantique s’appuie sur un principe rigoureusement en contradiction avec une telle conception, le principe de la liberté d’expression (freedom of speech), entendu comme le libre emploi du langage pour se référer à des entités quelconques[15] : n’importe qui peut dire n’importe quoi à n’importe quel sujet.

L’idée est simple et nécessite que l’on se penche à nouveaux frais sur le rapport que rédigea Berners-Lee en 1989 pour présenter le Web, et plus particulièrement, sur le schéma liminaire sur lequel s’ouvre celui-ci :

Si l’on observe les liens fléchés entre les différents nœuds du graphe, on remarquera que ceux-ci sont typés. Or, c’est très exactement le principe à la base du Web Sémantique. RDF permet en effet de créer des triplets autour de notions simples : un sujet, un prédicat, un objet. Chacun des termes de ce triplet est identifié par une URI (sauf cas particulier), permettant de ce fait à n’importe qui de s’y référer sur le Web. En d’autre terme, un triplet RDF permet de constituer une assertion élémentaire à propos de n’importe quelle ressource[16]. Mieux, tout un chacun étant libre de publier des ressources en créant les URIs associées, il devient dès lors aisé de créer des vocabulaires (les fameuses « ontologies » informatiques) à sa guise. Autrement dit, d’employer ses propres termes pour émettre tout type de jugements. On crée ainsi du lien en associant deux ressources via une troisième (la relation ou le prédicat). A l’instar des liens hypertextes qui reposaient avant tout sur des URIs auxquelles était attaché du code HTML (la balise <a> et l’élément href=«  »), les liens du Web Sémantique dépendent à leur tour des URIs qui identifient des ressources articulées en un triplet au moyen du format RDF.

Notons enfin qu’avec RDF aucune place n’est accordée à la vérité ou à la fausseté. En effet, loin d’imposer une ontologie universelle, le W3C s’est uniquement borné à fournir les moyens d’exprimer des relations à l’aide de différentes briques, dont RDF constitue le socle commun. Le créateur d’une ressource est libre de lui accoler les déterminations qu’il souhaite, rien cependant n’empêche un tiers d’ajouter les siennes, fussent-elles en contradiction patente avec les précédentes[17] :

« In the semantic web, though the original creator of a Thing may define a type, logically statements made by third parties can equally well make type assertions about a thing”[18]

On comprend aisément pour quelles raisons il n’a jamais été question de standardiser la notion de ressource. La caractérisation d’une ressource dépend en effet en grande partie de l’organisme qui l’a publiée et de la confiance (trust) qui lui est accordé. Umberto Eco parle à cet égard de « contrat de la référence » pour marquer le fait que l’existence et la cohérence des entités auxquelles il est fait mention à l’aide d’un nom propre (ici, d’une URI), repose sur la crédibilité des interlocuteurs (en partant d’un constat très proche, nous avions évoquédans l’article cité écrit avec Nicolas Delaforge, le « contrat éditorial » à la base du Web).

Figure 3 : « Cake » des technologies du Web Sémantique. On observera que la brique la plus élevée n’est pas la vérité, « Truth », mais la confiance, « Trust ».

Web Sémantique ou Web de données[19] ?

Certains travaux concernant le Web Sémantique, portés par des communautés issues de l’ingénierie des connaissances[20], ont parfois nourri une vision déformée de ce projet. De même, certains accents de l’article de 2001 ont pu faire accroire qu’il s’agissait simplement de redonner une vigueur nouvelle aux projets issus de l’intelligence artificielle. Rien n’interdit d’utiliser les langages du Web Sémantique dans une perspective relativement fermée. En cela, ils ne se différencient guère des technologies qui les ont précédés. Le véritable apport du Web Sémantique réside avant tout dans son adaptation au Web. Il s’agit bien d’un WEB sémantique qui tente d’exploiter au mieux cet espace fait d’URIs et de ressources qu’est le Web.

L’usage du terme « sémantique » laissait entrevoir une opposition à la catégorie du syntaxique. Tel n’est pourtant pas le cas. Le Web Sémantique ne s’inscrit a priori nullement dans la veine des projets visant à rendre les machines intelligentes, à leur donner accès au « sens ». On gagnerait davantage en compréhension en soulignant le contraste entre une famille de langages comme XML et RDF. XML sert essentiellement à structurer des contenus documentaires là où RDF est censé permettre de décrire… à peu près tout et n’importe quoi : des concepts, des fictions, des personnes, des « pages Web », des services… en un mot comme en cent : des ressources de toutes natures.

C’est fort de ce double constat qu’en 2006 fut lancée une initiative visant à proposer une approche simplifiée du Web Sémantique afin d’en favoriser le développement. Baptisée Linked Data (Données liées), celle-ci met en avant un petit nombre de principes[21] régissant la publication des données en ligne.

Figure 4 : Représentation du « nuage » des données liées actuellement en ligne.

L’une des cibles privilégiées de ce mouvement n’est autre que la mise à disposition, sur le Web et dans des formats standardisées et interopérables, des informations enfermées dans les bases de données ; d’où son mot d’ordre : « libérez vos données ». Si la valeur est bien dans la relation, les technologies du Web of Data[22] doivent permettre d’établir des liens entre des corpus autrefois isolés les uns des autres, voire d’autoriser de la sorte des découvertes inattendues – pari  au cœur de l’idée de Science du Web (WebScience[23]), que s’attèle à mettre en avant une pionnière de l’hypertexte telle que Dame Wendy Hall.

Autre résultat visible de ce mouvement, le développement de l’Open Data – la publication de données administratives dans des formats interopérables, d’abord initiées dans les pays anglo-saxons (Etats-Unis, Angleterre…), la France rattrapant à grands-pas son retard en la matière notamment sous l’impulsion d’Etalab[24] et du projet ANR Datalift[25], ouvert aux problématiques des institutions culturelles à la différence de ses équivalents anglo-américains. Par ailleurs, différents projets, tel le Centre Pompidou Virtuel (CPV), dont le lancement devrait intervenir en fin d’année, ou le projet HDA BO (pour l’enrichissement du portail Histoire des Arts[26] par des dispositifs de tagging sémantique), conduit par l’Institut de Recherche et d’Innovation (IRI) et le Ministère de la Culture et de la Communication (DPN), entendent démontrer l’apport de ces technologies dans le domaine de la culture par le développement d’applications concrètes adaptées à ses spécificités.

De tout ceci et de bien d’autres choses encore il sera question, dès la rentrée prochaine, à l’occasion d’un séminaire[27] organisé par le Ministère de la Culture et de la Communication (DREST) et l’IRI, avec le soutien du Centre Pompidou, de l’association Wikimedia France et du W3C, dont le titre, sous forme de question, n’est autre que « Le musée : lieu privilégié de l’articulation du Web Sémantique et du Web social ? ». Une question à laquelle nul ne saurait répondre en s’appuyant sur sa seule expertise, pour la simple et bonne raison que les réponses restent très largement à inventer. Tous ensemble.

Alexandre Monnin
IRI/Paris1/CNAM

Photo Article CC-BY-SA 3.0 Richard Cyganiak
Design graphique image de Une : Jean-François Hénane

Repères chronologiques :

  • 13 Mars 1989 : « Information Management: A Proposal », première description du Web comme « système d’hypertexte distribué ». Les graphes dirigés typés y figurent déjà.
  • Septembre 1994 : Conférence WWW 94 à Genève, première présentation de ce qui allait devenir le Web Sémantique.
  • 1996 : SHOE (Simple HTML Ontology Extensions) : projet de Jeff Heflin, Sean Luke, James Hendler, Lee Spector et David Rager visant à ajouter aux pages HTML de l’information formalisée de manière logique (classes, sous-classes et propriétés).
  • 1996 : PICS (Platform for Internet Content Selection).
  • 1997 : MCF (Meta Content Framework).
  • 6 juin 1997 : Recommandation « Meta Content Framework Using XML », fruit du travail de R. Guha et T. Bray, première ébauche de RDF. Guha livre cette définition du « meta-content » : “We have fairly clear idea of what we mean by the term content. It includes most of the documents on our hard disks, pages on the WWW, messages in email folders, etc. Meta-content is anything about this content.”[28] A la même époque, Tim Berners-Lee définit plusieurs axiomes similaires concernant « l’architecture des métadonnées »[29].
  • 22 février 1999 : Première recommandation consacrée à RDF dont les auteurs sont Ora Lassila et Ralph Swick. Intitulée « Resource Description Framework (RDF) Model and Syntax Specification) », celle-ci présentait à la fois le modèle de RDF (modèle de graphes) et sa syntaxe (basée sur XML à l’origine). Association malheureuse d’où résulta une confusion récurrente entre RDF et XML, d’autant plus regrettable que la syntaxe RDF/XML ajoute à son caractère extrêmement verbeux le handicap de ne pouvoir rendre toute l’expressivité du modèle RDF du fait de sa structure arborescente.
  • 17 mai 2001 : Article de Tim Berners-Lee, James Hendler et Ora Lassila dans Scientific American : “The Semantic Web. A new form of Web content that is meaningful to computers will unleash a revolution of new possibilities”
  • 27 juillet 2006 : Tim Berners-Lee publie sa “Linked Data design note”.
  • 15 janvier 2008 : SPARQL, langage et protocole pour effectuer des requêtes sur des données structurées, autre brique essentielle du Web Sémantique.
  • 2009-2010 : Lancement des portails data.gov et data.gov.uk
  • 2010 : Facebook lance Open Graph Protocol, vocabulaire RDF(a) qui, en enrichissant de simples pages  Web (notamment à l’aide du bouton « like »), les intègrent partiellement au graphe social de Facebook.
  • 2010 : Google rachète la société Metaweb, à l’origine de Freebase. On peut lire sur son blog la déclaration suivante : “The web isn’t merely words—it’s information about things in the real world, and understanding the relationships between real-world entities can help us deliver relevant information more quickly[30].”
  • 2011 : Microsoft, Google et Yahoo! lancent <schema.org>, une ontologie destinée à enrichir des pages Web traditionnelles (à la manière de RDFa ou des microformats).

[1] Le développement du tagging vient en quelque sorte – à sa manière et de façon limitée – répondre à ce manque. D’où l’intérêt fortement marquée du côté de la communauté du Web Sémantique pour  les ontologies du  tag (on en compte au moins une demi-douzaine,
Cf. http://www.w3.org/2005/Incubator/socialweb/XGR-socialweb-20101206/#Tagging).
[2] Requests for Comments, les documents techniques de l’Internet compilée par l’IETF (Internet Engineering Task Force) dont certains sont des standards, y compris du Web.
[3] Entre décembre 1994 (RFC 1738) et août 1998 (RFC 2396).
[4] Sur la notion de ressource dite « générique », cf. Tim Berners-Lee, Axioms of Web architecture : 3. Generic Resources, http://www.w3.org/DesignIssues/Generic.html
[5] Palo Alto Research Center.
[6] http://wayback.archive.org/web/
[7] Tim Berners-Lee, Design notes, Axioms of Web Architecture: 3. Metadata Architecture: “The concepts of generic resources allows (sic) a URI to refer to something which can be a living document or a frozen one. The usual case is that documents are living documents or even if frozen, the server is not aware of this, and so neither can the client be. In any case, rarely for a living document is a server smart enough and wise enough to provide for the referer second URL for the specific version.”http://www.w3.org/DesignIssues/old/Metadata.html
[8] Au sens que confère à ce terme le protocole HTTP.
[9] On parle à cet égard d’URIs « déréférenceables ».
[10] http://www.w3.org/Talks/WWW94Tim/, à l’occasion de la conférence WWW Geneva 94, en septembre de cette année-là.
[11] Ibidem.
[12] L’histoire de RDF est complexe et s’inscrit dans la suite immédiate de plusieurs lignées techniques. Outre les graphes conceptuels de John Sowa ou le modèle Entité-attribut-valeur (Entity-Attibute-Value-model) pour l’inspiration générale, l’ancêtre immédiat de RDF se nomme MCF (Meta Content Framework). Création de Ramanathan V. Guha, connu pour son travail sur Cyc, une base de connaissances issue de travaux en intelligence artificielle, le but de MCF était de fournir un système apte à représenter le contenu de pages Web, fichiers ftp, emails, bases de données, etc. Pour une description accessible en ligne, on pourra se reporter au site personnel de Guha : http://www.guha.com/mcf/ A l’instar de RDF, le modèle mathématique de MCF repose sur les graphes orientés étiquetés i.e. associant des nœuds via des flèches typées au moyen de libellés. Guha développa MCF durant une période s’étalant de 1995 à 1997 au cours de laquelle il fut employé par Apple avant de partir chez Netscape où il collabora avec Tim Bray, auteur de la spécification XML, sur une généralisation de MCF anticipant RDF (« Meta Content Framework Using XML »). Sur ces quelques points, voir également le compte-rendu livré par Tim Bray lui-même sur son blog :
http://www.tbray.org/ongoing/When/200x/2003/05/21/RDFNet
L’autre prédécesseur immédiat de RDF se nomme PICS (Platform for Internet Content Selection). Lancé en 1996, il fut notamment implémenté dans Internet Explorer 5. A l’instar de MCF, PICS faisait office de format de description des « pages » Web dans un but bien précis : permettre de filtrer l’accès à certains contenus labellisés tout en évitant les effets de la censure, « contrôler la réception plutôt que la distribution » selon l’heureuse expression de Paul Resnick et James Miller (in PICS: Internet Access Controls Without Censorship, in Communications of the ACM, 1996, vol. 39(10), pp. 87-93, http://www.w3.org/PICS/iacwcv2.htm). PICS anticipe de façon remarquable RDF du point de vue de la gestion de l’hétérogénéité des vocabulaires mis en œuvre. S’il était loisible aux producteurs de contenus de proposer leurs propres labels, rien n’interdisait le développement de vocabulaires alternatifs étayés sur d’autres points de vue, reflétant des choix potentiellement radicalement différents. Rien ne dictait donc, en définitive, le choix d’un vocabulaire unique, tant pour l’étiquetage des contenus que le respect, par les usagers, de cet étiquetage –  libre à chacun de sélectionner ses critères de filtrage. Ceci étant rendu possible par le recours aux URIs pour l’identification des labels. Combinant le double avantage d’être définies de manière décentralisée tout en garantissant, en vertu du système des noms de domaine, leur caractère rigoureusement distinct les unes des autres. Finalement, PICS, en se bornant à spécifier a minima les procédures pour mettre en place d’une part un service de labellisation et, d’autre part, un format pour décrire ces services ainsi que les libellés, ouvrait la voie à l’émergence d’autres vocabulaires n’ayant aucun rapport à la restriction de l’accès aux contenus en ligne. Le principe général, à savoir associer des données à des contenus sur le Web, devait donc perdurer par la suite, tant au travers de RDF que de POWDER, autre recommandation du W3C destinée à décrire un ensemble de ressource (ce que l’on appelle généralement un « site », unité qui en réalité n’a guère de sens sur le Web, tant qu’elle n’est pas construite). Il conviendrait également, pour être tout à fait exhaustif, de revenir sur CDF (Channel Definition Format), Web Collections, SHOE (Simple HTML Ontology Extensions, cf. infra, repères chronologiques), les URCs (Uniform Resource Characteristics ou Citation) ou encore sur le développement parfois chaotique de RSS (l’acronyme ne signifiait-il pas, à l’origine, « RDF Site Summary » ?…).
[13] Extrait d’une interview parue dans la Recherche intitulée « Le Web va changer de dimension » http://www.larecherche.fr/content/recherche/article?id=6566
[14] A y regarder de près, les principales attaques de Shirky sont tout bonnement erronées : le W3C n’a jamais cherché à imposer une quelconque ontologie unique, RDF n’est en aucun cas un système à base de syllogismes ( !), etc.
[15] C’est d’ailleurs ainsi que le présente Tim Berners-Lee dans l’entretien mentionné dans la note suivante.
[16] C’est sous cet angle, évoquant rien de moins que les possibilités mêmes du langage, qu’il convient d’appréhender la portée véritable de ces techno-logies. Sur ce point, cf. l’interview de Tim Berners-Lee que nous avons réalisée avec Harry Halpin à propos des enjeux philosophiques du Web : http://www.dailymotion.com/video/xfisjf_tim-berners-lee-on-philoweb-and-philosophical-engineering_tech
[17] « in the web, the hypertext link allows statements of new forms to be made about any object, even though (…) this may lead to nonsense or paradox. One can define a property « coolness » within one’s own part of the web, and then make statements about the « coolness » of any object on the web.”, in Tim Berners-Lee, Axioms of Web Architecture: Metadata. Metadata Architecture, http://www.w3.org/DesignIssues/Metadata
[18] Tim Berners-Lee, Reflections on Web Architecture. Conceptual Graphs and the Semantic Web, http://www.w3.org/DesignIssues/CG.html
[19] Nous préférerions traduire data par « prises » (créatrices d’affordances algorithmiques) plutôt que par « donnée »  mais ceci n’est guère conforme à l’usage actuel.
[20] C’est notamment le cas des chercheurs œuvrant dans le domaine de la logique des descriptions. On se reportera par exemple à cette interview d’Ian Horrocks, chercheur mondialement reconnu dans cette discipline ayant largement contribué à la création d’OWL (Web Ontology Language, langage qui enrichit RDF d’une forte expressivité logique), et qui, à la question “Do you see a close relationship between recent developments in Web research and hypertext? What form has it taken? Have you found yourself active in both areas?” répond tout simplement “I’m not an expert in hypertext” (cf. Claus Atzenbeck, Interview with Ian Horrocks. SIGWEB Newsl. Autumn, Article 2 (September 2009),
http://doi.acm.org/10.1145/1592394.1592396).
[21] 1. Publier en RDF et utiliser des URIs en guise de noms pour des choses.
2. Utiliser des URIs HTTP de façon à ce que les gens puissent les déréférencer (en d’autres termes, générer une représentation HTTP à partir de ces URIs).
3. Quand quelqu’un déréférence une URI, lui fournir des informations utiles au moyen de standards (en RDF pour répondre à un programme,  en HTML pour répondre à une personne)
4. Inclure des liens vers d’autres URIs de manière à permettre aux gens d’effectuer de nouvelles découvertes.
[22] Expression déjà employée dès 1998 par Tim Berners-Lee dans une note remarquable de prescience : Semantic Web Road map, http://www.w3.org/DesignIssues/Semantic.html
[23] http://webscience.org/
[24] http://blog.etalab.gouv.fr/
[25] http://datalift.org/fr/
[26] http://www.histoiredesarts.culture.fr/
[27] Séminaire de recherche « Muséologie, muséographie et nouvelles formes d’adresse au public ».
[28] http://downlode.org/Etext/MCF/towards_a_theory_of_metacontent.html
[29] « 1. Metadata is data.
2. Metadata may refer to any resource which has a URI.
3. Metadata may be stored in any resource no matter to which resource it refers.
4. Metadata can be regarded as a set of assertions, each assertion being about a resource (A  u1  …).
5. Assertions which state a named relationship between two resources are known links  (A u1 u2).
6. Assertion types (including link relationships) should be first class objects in the sense that they should be able to be defined in addressable resources and referred to by the address of that resource  A in { u }.
7. The development of new assertion types and link relationships should be done in a consistent manner so that these sort of assertions can be treated generically by people and by software.”
http://www.w3.org/DesignIssues/Metadata
[30] http://googleblog.blogspot.com/2010/07/deeper-understanding-with-metaweb.html

Les commentaires sont fermés.