logo inria

Actualités
L'INRIA
Recherche scientifique
Valorisation et Transfert
Publication et Documentation
Travailler et se former à l'INRIA

English version Annuaire Plan du site
 Recherche avancée et aide

Information de meme niveau :

Protocoles | Sécurité et mobilité | Liaisons satellitaires | Diffusion de groupe | Réseaux sans fil | Web | Langues naturelles | Ergonomie des logiciels | Nouveaux usages | Calcul scientifique | Algorithmes | Cartes à puce |

-----------------------
Traitement informatique des langues
-----------------------

Informatique linguistique -  Normalisation en terminologie -  Gros volumes d'archives -  Lexiques

Informatique linguistique

L'informatique linguistique est quasiment née en même temps que l'informatique : est apparue d'emblée l'idée d'utiliser les ordinateurs pour faire de la traduction automatique, fonction pourtant encore hors de portée aujourd'hui. Le déploiement d'Internet et la multiplication des documents sous format électronique n'a ensuite fait qu'accroître les possibilités et les besoins en indexation, classification, recherches sur ces textes ou transcriptions de dialogues, quelque soit leur langue et leur évolution dans le temps.

Toute la difficulté est de parvenir à des solutions génériques, applicables à l'échelle internationale susceptibles d'être paramétrées de façon spécifique, pour une langue donnée ou un besoin particulier. Pour appréhender la complexité de la tâche, il suffit de prendre l'exemple d'un lexique (dictionnaire) et la notion d'adjectif décliné sous ses différentes formes : en français, ce seront les genres " masculin et féminin " et les nombres " singulier et pluriel " alors qu'en japonais, il faudra aussi considérer la possibilité de négation et d'accord en temps. Il est ainsi clairement apparu, depuis le début des années 1990, que la seule solution pour parvenir à une gestion pérenne de ces ressources linguistiques mondiales était de passer par leur normalisation.

Une façon de parler la même langue

La première norme internationale qui a vu le jour en la matière concerne la terminologie, à savoir le vocabulaire spécifique à telle ou telle industrie, science, institution… L'organisation internationale de normalisation ISO réfléchit depuis sa création, en 1947, à cette problématique au sein d'un comité technique dédié (le TC 37), car par définition, toute norme fait appel à une terminologie spécifique et à ses multiples traductions. On comprend également vite l'intérêt d'une telle démarche lorsqu'on pense à l'uniformisation des 360.000 pages d'acquis communautaires des institutions européennes, désormais traduites en 25 langues… un travail de titan.
" Sur la base de nos travaux en modélisation linguistique, l'ISO a fait appel à nous en 2000 pour tenter de trouver une solution de normalisation en terminologie, se rappelle Laurent Romary, ancien responsable du projet Langue et Dialogue au LORIA. A l'époque, deux normes, l'une américaine, l'autre européenne, étaient en concurrence. Grâce à une démarche plus abstraite, nous avons pu unifier les deux dans une plate-forme de spécification commune, qui fait désormais référence. " Laurent Romary est l'éditeur de cette norme (dite ISO 16642 ou TMF pour Terminological markup framework) publiée en août 2003, seulement trois ans après sa première intervention à l'ISO.
Quel est l'intérêt d'une plate-forme normalisée ? Elle permet à un utilisateur donné, par exemple un industriel, de créer son format terminologique, propre à son activité et d'échanger sur cette base par exemple avec des sous-traitants, des prestataires, des clients qui adoptent le même format, une façon finalement de parler la même langue. La norme ISO 16642 a beaucoup de succès et de nombreuses implémentations ont déjà eu lieu, comme celles d'IBM et de Daimler-Benz. Fruit d'une collaboration du LORIA avec des partenaires industriels comme EDF ou EADS et des partenaires institutionnels comme l'INIST (Institut de l'information scientifique et technique, centre de documentation du CNRS), un livre blanc précise concrètement les recommandations d'application. Ce travail a été effectué dans le cadre d'une action nationale de recherche et développement de l'INRIA, baptisée SYNTAX.

Faire face aux gros volumes de documents électroniques

Une autre organisation internationale s'est intéressée aux travaux de l'INRIA : le consortium TEI (Text encoding initiative), un ensemble de partenaires institutionnels internationaux préoccupés par la gestion de gros volumes d'archives électroniques. Le consortium a été créé en 1987 dans le but de définir des formats de texte pérennes pour les bibliothèques, les universités, les musées, les éditeurs… Compte tenu de la qualité des travaux menés par ce consortium, l'INRIA s'est d'abord inspiré de ses directives de représentations pour éditer ses propres documents écrits ou ses transcriptions de dialogues. " Nous y avons progressivement intégré nos propres outils pour annoter les textes, hiérarchiser les informations… explique Laurent Romary. Nos travaux ont alors intéressé le consortium qui nous a demandé de participer à son conseil scientifique depuis 2000. "
Encore plus valorisant, le LORIA et deux unités du CNRS, l'INIST et l'ATILF (Analyse et traitement informatique de la langue française) forment un des 4 sites hôtes de la TEI, aux côtés de l'université de Virginie (USA) de l'université de Providence (USA) et de celle d'Oxford (GB). Les chercheurs nancéens apportent leurs compétences en modélisation de données pour définir des formats de texte plus génériques. A l'échelle nationale, cette collaboration permet aussi de déployer la recommandation TEI dans des contextes spécifiques, par exemple, pour normaliser la littérature grise (production scientifique, rapports d'activité, thèses…).

Normaliser les lexiques, le contenu

Rien d'étonnant donc à ce qu'un chercheur du LORIA, Laurent Romary, soit appelé à présider le nouveau sous-comité ISO dédié à la normalisation des ressources linguistiques, créé en 2002. Son objectif est d'assurer la normalisation de toutes les informations nécessaires à l'ingénierie linguistique, par exemple pour faire de la correction orthographique et grammaticale, des traductions automatiques, fournir des outils d'extraction d'information… Une équipe associant l'INRIA (Gil Francopoulo) au département de la défense américaine développe dans ce cadre une plate-forme normalisée baptisée LMF (Lexical markup framework) qui vise à représenter cette fois des lexiques à large couverture plutôt que des terminologies. Ils projettent de co-éditer une norme qui modélise les représentations associées aux mots. En France, ce travail s'appuie sur un réseau national de plus de 50 contributeurs industriels et institutionnels.
Le sous-comité travaille par ailleurs à un autre format standard, cette fois de représentation de contenu, baptisé MLIF (Multilingual information framework). Il serait adapté par exemple aux mémoires de traductions (des phrases types que les traducteurs créent lorsqu'elles apparaissent souvent), à la localisation de certains messages clés dans les logiciels ou au sous-titrage de DVD…
--------------------------------
début de la page    |suite Des logiciels aussi utilisables que possible     | page d'accueil du site
© INRIA - mise à jour le 29.08.2006 - dri-webmaster@inria.fr