Informatique linguistique
L'informatique linguistique est quasiment née en même temps
que l'informatique : est apparue d'emblée l'idée d'utiliser
les ordinateurs pour faire de la traduction automatique, fonction pourtant
encore hors de portée aujourd'hui. Le déploiement d'Internet
et la multiplication des documents sous format électronique n'a
ensuite fait qu'accroître les possibilités et les besoins
en indexation, classification, recherches sur ces textes ou transcriptions
de dialogues, quelque soit leur langue et leur évolution dans le
temps.
Toute la difficulté est de parvenir à des solutions génériques,
applicables à l'échelle internationale susceptibles d'être
paramétrées de façon spécifique, pour une langue
donnée ou un besoin particulier. Pour appréhender la complexité de
la tâche, il suffit de prendre l'exemple d'un lexique (dictionnaire)
et la notion d'adjectif décliné sous ses différentes
formes : en français, ce seront les genres " masculin et féminin " et
les nombres " singulier et pluriel " alors qu'en japonais, il
faudra aussi considérer la possibilité de négation
et d'accord en temps. Il est ainsi clairement apparu, depuis le début
des années 1990, que la seule solution pour parvenir à une
gestion pérenne de ces ressources linguistiques mondiales était
de passer par leur normalisation.
Une façon de parler la même langue
La première norme internationale qui a vu le jour en la matière
concerne la terminologie, à savoir le vocabulaire spécifique à telle
ou telle industrie, science, institution… L'organisation internationale
de normalisation ISO réfléchit depuis sa création,
en 1947, à cette problématique au sein d'un comité technique
dédié (le TC 37), car par définition, toute norme
fait appel à une terminologie spécifique et à ses
multiples traductions. On comprend également vite l'intérêt
d'une telle démarche lorsqu'on pense à l'uniformisation des
360.000 pages d'acquis communautaires des institutions européennes,
désormais traduites en 25 langues… un travail de titan.
"
Sur la base de nos travaux en modélisation linguistique, l'ISO a
fait appel à nous en 2000 pour tenter de trouver une solution de
normalisation en terminologie, se rappelle Laurent Romary, ancien responsable
du projet Langue et Dialogue au LORIA. A l'époque, deux normes,
l'une américaine, l'autre européenne, étaient en concurrence.
Grâce à une démarche plus abstraite, nous avons pu
unifier les deux dans une plate-forme de spécification commune,
qui fait désormais référence. " Laurent Romary
est l'éditeur de cette norme (dite ISO 16642 ou TMF pour Terminological
markup framework) publiée en août 2003, seulement trois ans
après sa première intervention à l'ISO.
Quel est l'intérêt d'une plate-forme normalisée ? Elle
permet à un utilisateur donné, par exemple un industriel,
de créer son format terminologique, propre à son activité et
d'échanger sur cette base par exemple avec des sous-traitants, des
prestataires, des clients qui adoptent le même format, une façon
finalement de parler la même langue. La norme ISO 16642 a beaucoup
de succès et de nombreuses implémentations ont déjà eu
lieu, comme celles d'IBM et de Daimler-Benz. Fruit d'une collaboration
du LORIA avec des partenaires industriels comme EDF ou EADS et des partenaires
institutionnels comme l'INIST (Institut de l'information scientifique et
technique, centre de documentation du CNRS), un livre blanc précise
concrètement les
recommandations
d'application. Ce travail a été effectué dans
le cadre d'une action nationale de recherche et développement de
l'INRIA, baptisée
SYNTAX.
Faire face aux gros volumes de documents électroniques
Une autre organisation internationale s'est intéressée aux
travaux de l'INRIA : le consortium TEI (Text encoding initiative), un ensemble
de partenaires institutionnels internationaux préoccupés
par la gestion de gros volumes d'archives électroniques. Le consortium
a été créé en 1987 dans le but de définir
des formats de texte pérennes pour les bibliothèques, les
universités, les musées, les éditeurs… Compte
tenu de la qualité des travaux menés par ce consortium, l'INRIA
s'est d'abord inspiré de ses directives de représentations
pour éditer ses propres documents écrits ou ses transcriptions
de dialogues. " Nous y avons progressivement intégré nos
propres outils pour annoter les textes, hiérarchiser les informations… explique
Laurent Romary. Nos travaux ont alors intéressé le consortium
qui nous a demandé de participer à son conseil scientifique
depuis 2000. "
Encore plus valorisant, le LORIA et deux unités du CNRS, l'INIST
et l'ATILF (Analyse et traitement informatique de la langue française)
forment un des 4 sites hôtes de la TEI, aux côtés de
l'université de Virginie (USA) de l'université de Providence
(USA) et de celle d'Oxford (GB). Les chercheurs nancéens apportent
leurs compétences en modélisation de données pour
définir des formats de texte plus génériques. A l'échelle
nationale, cette collaboration permet aussi de déployer la recommandation
TEI dans des contextes spécifiques, par exemple, pour normaliser
la littérature grise (production scientifique, rapports d'activité,
thèses…).
Normaliser les lexiques, le contenu
Rien d'étonnant donc à ce qu'un chercheur du LORIA, Laurent
Romary, soit appelé à présider le nouveau sous-comité ISO
dédié à la normalisation des ressources linguistiques,
créé en 2002. Son objectif est d'assurer la normalisation
de toutes les informations nécessaires à l'ingénierie
linguistique, par exemple pour faire de la correction orthographique et
grammaticale, des traductions automatiques, fournir des outils d'extraction
d'information… Une équipe associant l'INRIA (Gil Francopoulo)
au département de la défense américaine développe
dans ce cadre une plate-forme normalisée baptisée LMF (Lexical
markup framework) qui vise à représenter cette fois des lexiques à large
couverture plutôt que des terminologies. Ils projettent de co-éditer
une norme qui modélise les représentations associées
aux mots. En France, ce travail s'appuie sur un réseau national
de plus de 50 contributeurs industriels et institutionnels.
Le sous-comité travaille par ailleurs à un autre format standard,
cette fois de représentation de contenu, baptisé MLIF (Multilingual
information framework). Il serait adapté par exemple aux mémoires
de traductions (des phrases types que les traducteurs créent lorsqu'elles
apparaissent souvent), à la localisation de certains messages clés
dans les logiciels ou au sous-titrage de DVD…