Plusieurs projets
de recherche de l'INRIA développent des langages pour améliorer
la conception et la manipulation des documents du Web non seulement en
terme de structure mais aussi de sens, pour créer ce qu'on appelle
le Web sémantique. Ces travaux sont menés dans le cadre du
consortium international de recommandation W3C.
Lorsque le Web s'est déployé, le problème de la représentation
des pages s'est rapidement posé. Une norme sur le sujet, SGML, avait été publiée
par l'ISO (organisation internationale de normalisation) en 1986. C'était
un premier pas vers une approche structurée des documents, une organisation
logique, explicite en chapitres, sections, sous-sections… qui permet
des traitements sur le contenu des documents, comme des recherches par
mots-clés, un déplacement facilité dans le document…
Les chercheurs du projet de recherche WAM de l'INRIA Rhône-Alpes
travaillaient sur ces représentations logiques de documents depuis
une dizaine d'années. Ils ont donc été naturellement
impliqués dans les réflexions menées sur le format
de représentation des pages Web. Pour expérimenter ces formats,
ils avaient développé un prototype logiciel. " Lorsque
le consortium W3C (World wide web consortium, qui développe les
standards du Web) s'est monté en 1994, raconte Vincent Quint, responsable
du projet WAM, il a été de suite intéressé par
notre logiciel : le W3C avait besoin d'un tel outil pour valider, expérimenter
et démontrer les nouvelles technologies du Web, en particulier du
point de vue des utilisateurs, qu'ils produisent ou utilisent des documents. "
Un logiciel toujours au goût du jour
Deux membres de l'équipe ont donc rejoint l'équipe technique
du W3C (cf. L'INRIA, acteur majeur du W3C )
pour continuer le développement de ce logiciel, baptisé Amaya.
Amaya a ainsi progressivement intégré les nouvelles recommandations
créées par le W3C. Au fil du temps, le logiciel a évolué vers
un outil " auteur " opérationnel, qui permet non seulement
d'utiliser les technologies les plus récentes du Web mais aussi
de produire des pages Web complexes contenant du texte, des graphiques
ou des expressions mathématiques, respectant les recommandations
du W3C. Depuis fin 2004, une toute nouvelle version de cet éditeur
Web est disponible.
L'INRIA a aussi largement contribué à développer certains
de ces nouveaux formalismes, comme MathML qui est la recommandation du
W3C pour représenter les mathématiques dans des documents
XML, nouveau format de représentation des pages Web, successeur
de HTML. Il permet aux enseignants, aux étudiants, aux chercheurs,
aux ingénieurs de mettre des mathématiques dans leurs pages
Web et de les échanger par e-mail ou d'un logiciel à un autre.
MathML est le résultat d'un groupe de travail créé en
1997 par le W3C. Des chercheurs du projet de recherche
CAFE y ont d'emblée
participé. Dans les années 1990, ils avaient déjà développé avec
d'autres instituts de recherche, un standard dans ce domaine baptisé OpenMath
(qui utilisait SGML). MathML permet d'ailleurs d'utiliser OpenMath pour
décrire des objets mathématiques plus complexes que ceux
représentés nativement dans MathML.
La première recommandation MathML a été émise
en 1999. La seconde version date de 2003. Un certain nombre de documents
utilisent déjà MathML (comme les brevets américains,
du US patents and trademarks office) et les grands éditeurs scientifiques
comme Elsevier ou Springer, ou des éditeurs de cours en ligne s'y
intéressent et l'utiliseront lorsqu'ils encoderont leurs documents
en XML.
Le casse-tête du multimédia
Autre sujet de préoccupation qui a rapidement pris une ampleur considérable
sur le Web : le développement du multimédia, qu'il soit statique
comme des images ou du texte ou dynamique comme la vidéo ou le son.
Il fallait s'assurer que tous ces documents restent exploitables dans des
environnements aussi hétérogènes qu'un ordinateur,
un téléphone portable ou un téléviseur. Plusieurs
groupes de travail ont été mis en place au W3C pour réfléchir à des
solutions. Un chercheur du projet de recherche
WAM, Nabil Layaïda,
travaille depuis plusieurs années dans l'un d'entre eux, " Multimédia
synchrone ", créé début 1997 pour adapter les
documents multimédia au Web, définir les relations temporelles
entre les différents éléments d'informations d'un
document, prévoir comment le son, l'image ou la vidéo vont
s'assembler à la fois dans l'espace de l'écran et dans le
temps. Ce groupe de travail développe un langage baptisé SMIL,
auquel les chercheurs de l'INRIA ont largement contribué, en particulier
par le biais des concepts développés par Nabil Layaïda
au cours de sa thèse. Une première version de SMIL a été recommandée
par le W3C en juin 1998, une seconde en août 2001. La version 2.1
est validée depuis mai 2005. Le format est déjà largement
utilisé : par exemple par le logiciel Realplayer ou pour les messages
multimédia MMS, successeurs des SMS avec une version adaptée
pour les téléphones mobiles.
Nabil Layaïda a par ailleurs coordonné le développement
de logiciels implémentant SMIL. Depuis l'été 2004,
un de ces outils Web, baptisé
Limsee, est disponible. Il permet
de créer des présentations multimédia adaptables,
au format SMIL. Un autre, baptisé PocketSMIL, est dédié aux
assistants personnels et appareils mobiles.
Dans le même esprit, le W3C a créé un groupe de travail, " Device
independance ", dont le but est de faire en sorte que le Web soit
indépendant des appareils par lesquels on y accède. Un doctorant
du projet WAM, Tayeb Lemlouma, a participé à ses travaux
jusqu'en 2004. Les recherches concernent par exemple la transformation
et l'adaptation d'un document multimédia comportant vidéo,
son et texte à un téléphone portable. Les solutions
consistent par exemple à remplacer la vidéo par des images
statiques ou à restructurer les documents pour les faire apparaître
de façon séquentielle.
Quand les ordinateurs raisonneront…
Néanmoins, au delà de ces besoins de structuration des documents,
de traitement des données, il faut aussi faire face au déluge
d'informations du Web. Pour cela, une des solutions, envisagée par
le W3C depuis la fin des années 1990, ambitionne de rendre le contenu
des documents plus intelligible, de donner du sens aux informations stockées
dans les pages Web en HTML. On appelle cela le Web sémantique. La
standardisation en XML fait alors figure de première étape
: elle définit la syntaxe de structure des documents et des données.
Pour accéder au sens, les langages du Web sémantique permettent
ensuite d'organiser, de hiérarchiser les concepts utilisés
pour décrire les ressources du Web dans des ontologies, des structures
logiques capturant un certain nombre de relations entre ces concepts. Ces
langages permettent, par exemple, de déduire que si 'un train nécessite
un billet' et que 'le TGV est un train', alors 'le TGV nécessite
un billet'. Les ontologies organisent les descriptions des concepts (comme
'billet' ou 'train'). Dès lors, des tâches telles que la recherche
d'informations (par exemple pour l'organisation d'un voyage impliquant
avion, train et hôtel pour une destination donnée) peuvent être
menées intelligemment par les ordinateurs eux-mêmes, sur plusieurs
sites à la fois et indépendamment du format des données.
Le Web sémantique permet en fait aux ordinateurs de raisonner, d'associer
des concepts voisins pour une requête donnée, chose impossible
avec la plupart des moteurs de recherche actuels : les réponses
seront plus précises et plus pertinentes.
Le premier langage du Web sémantique, baptisé RDF (Ressource
description framework), a été recommandé par le
W3C en 1999 et en 2004, suivi de RDF Schema, recommandé en 2004. RDF
permet des descriptions sémantiques simples et RDF Schema fournit
un vocabulaire de base pour décrire le sens des concepts utilisés.
Deux projets de recherche de l'INRIA sont particulièrement impliqués
dans les travaux sur le Web sémantique :
ACACIA à Sophia-Antipolis
et
EXMO à Grenoble.
Depuis 2001, les chercheurs du projet de recherche
EXMO qui travaillaient
sur la conception de langages de représentation de connaissances
ont naturellement contribué au groupe de travail " WebOnt " du
W3C destiné à développer un troisième langage
sémantique, plus expressif que RDF Schema : baptisé OWL et
recommandé en février 2004, c'est le premier langage qui
permet de définir des ontologies. Plusieurs logiciels utilisant
OWL sont en cours de développement. Des systèmes opérationnels
sont produits par Hewlett Packard et les universités de Manchester
et Karlsruhe.
Des premières applications aux moteurs de recherche de demain
Ces langages, en particulier RDF et RDF Schema, commencent à être
utilisés. La principale application mondiale s'appelle FOAF (Friend
of a friend). Elle a été créée pour connecter
les gens entre eux, former des réseaux de connaissances, des partenariats
: chacun décrit son profil (nom, e-mail, centres d'intérêt,
activité professionnelle…) et l'ordinateur fait le reste.
Le Web sémantique intéresse aussi les entreprises pour la
gestion de leurs connaissances.
Pour assurer un bon développement des langages RDF et OWL, le W3C
a lancé en 2004 un groupe de travail pour définir les " Meilleures
pratiques du Web sémantique ", pour expliquer les langages,
donner des éléments méthodologiques, répondre à des
problèmes d'utilisation et fournir du matériel pédagogique.
Fabien Gandon, chercheur du projet de recherche ACACIA, y participe. Le
projet ACACIA s'intéresse aux méthodes et aux outils pour
la gestion des connaissances. Dans le but d'assurer l'interopérabilité entre
différentes solutions, leurs travaux s'inscrivent aussi dans le
cadre du Web Sémantique. Une plate-forme baptisée
CORESE,
développée depuis 1999 permet de concevoir des serveurs dédiés
au Web sémantique : ils sont basés sur un moteur de recherche
exploitant les descriptions du contenu sémantique des documents.
CORESE implémente un traducteur qui permet de lire et produire des
descriptions en RDF en les interprétant dans le formalisme des graphes
conceptuels, une méthode de représentation de connaissances
et de raisonnement qui bénéficie de 20 ans de recherches.
La plate-forme CORESE est disponible sur le Web.
Enfin, pour que le Web sémantique soit réellement opérationnel,
en particulier pour des moteurs de recherche, il faut également
concevoir des langages de requêtes pour RDF et OWL, par exemple pour
exploiter simultanément deux ontologies différentes et assurer
leur interopérabilité. Un groupe de travail du W3C, " RDF
data access group ", y est dédié, auquel des chercheurs
du projet EXMO participent. C'est dans cet esprit qu'Olivier Corby, chercheur
du projet ACACIA, évalue les performances du langage de requête
qu'il a conçu pour la plate-forme CORESE.
L'INRIA, acteur majeur du W3C
L'INRIA a été un des trois piliers du W3C (World wide web
consortium), consortium international qui assure l'évolution et
la promotion des standards du Web. L'institut a été le premier
site hôte européen, de 1995 à 2002 aux côtés
du MIT (Massachusetts institute of technology) pour le continent américain
et l'université de Keio au Japon pour l'Asie. Depuis 2003, l'ERCIM
(Groupement européen de recherche en informatique et en mathématiques)
a pris le relais de l'INRIA pour l'Europe.
Pendant ces 8 années, une vingtaine de personnes de l'INRIA participait à l'équipe
technique du W3C (qui en comptait une soixantaine). Jean-François
Abramatic a d'ailleurs présidé le consortium pendant 4 ans
jusqu'en 2001. Vincent Quint a été en charge d'un des quatre
domaines techniques du W3C sur les formats de documents utilisés
sur le Web et les interfaces avec les utilisateurs. " C'était
avant tout un rôle d'animation, explique-t-il. Cela consistait à être à l'écoute
des besoins, à coordonner les efforts, proposer la création
de groupe de travail et assurer la participation des chercheurs et industriels. "
Aujourd'hui, 6 ou 7 chercheurs de l'INRIA participent à des groupes
de travail. Vincent Quint, directeur de recherche à l'INRIA, est
co-animateur du "Technical Architecture Group" (TAG) du W3C depuis
le 1er février 2005.