logo inria

Actualités
L'INRIA
Recherche scientifique
Valorisation et Transfert
Publication et Documentation
Travailler et se former à l'INRIA

 Annuaire Plan du site
 Recherche avancée et aide

Information de meme niveau :

| Rapports de prospective scientifique |

-----------------------
Rapport de prospective - Bases de données, bases de connaissances, systèmes cognitifs
-----------------------

Serge Abiteboul et Jean-Marie Pierrel

Introduction

La presse généraliste consacre suffisamment d'attention à la gestion d'information dans l'entreprise (intranet) et au niveau mondial (Internet, Web, autoroutes de l'information) et aux impacts sur la société des technologies de l'information pour qu'il semble inutile d'insister sur l'ampleur de la révolution en cours autour de l'informatique, et sur ses enjeux industriels et commerciaux. Prenant la suite de la "société industrielle", on parle de plus en plus, aujourd'hui, de la " société de l'information ".

S'il est clair que, dans ce cadre, les aspects "réseaux et télécommunications" sont incontournables comme moyen de transmission de cette information, les études et rapports parus au cours des derniers mois mettent de plus en plus l'accent sur la nécessité de s'intéresser, au moins autant, au contenu : acquisition, gestion, structuration, analyse et interprétation, modélisation et exploitation des informations et connaissances.

Le Programme 3A de l'INRIA Bases de données, bases de connaissances et systèmes cognitifs adressant directement ces problèmes apparaît comme un des atouts importants de l'Institut pour contribuer, à travers des recherches fondamentales et finalisées, à l'établissement d'une telle société de l'information. Ce programme s'est structuré historiquement sur la base de deux grandes thématiques :

  • les bases de données qui, dans ce cadre, s'attachent plus particulièrement à définir des systèmes informatiques permettant à l'utilisateur de gérer et exploiter au mieux ses informations, dans un contexte caractérisé tout à la fois par la présence d'informations fortement diversifiées (données multimédia) et réparties (données réparties).
  • les bases de connaissances et les systèmes cognitifs dont l'objectif premier est de modéliser des domaines à priori peu ou mal structurés. Le résultat recherché est alors de définir une structure de connaissances, support de mécanismes de raisonnement et d'exploitation formellement définis.
La gestion et l'exploitation d'informations et de connaissances complexes : Un défi pour une société de l'information plus conviviale

Les bases de données

Le domaine des systèmes de gestion de bases de données (SGBD) est un domaine par nature transversal, faisant intervenir des aspects systèmes, algorithmiques et langages. La standardisation du langage de requêtes SQL dans les années 80 et le développement d'algorithmes robustes et efficaces pour la gestion de transactions ou l'optimisation de requêtes ont rendu l'utilisation de systèmes relationnels omniprésente dans les applications de bases de données. De la même manière, la définition du langage de requêtes standard OQL a contribué à l'essor des systèmes à objets au cours des dernières années. Aujourd'hui, les SGBD représentent un vaste marché bien défini : systèmes relationnels pour postes de travail ou gros ordinateurs (par exemple, DB2, Oracle, Sybase), systèmes pour micros (par exemple, Access, Paradox, DBase), systèmes à objets (par exemple, Object Store, O2, Versant). Dans le même temps, le développement de bases théoriques solides s'appuyant sur les acquis de disciplines informatiques connexes (par exemple, langages de programmation) a permis d'imposer le domaine de la recherche en bases de données comme domaine de recherche appliquée à part entière.

Les SGBD, au départ principalement tirés par les applications commerciales (par exemple, bancaires), ont vécu une profonde mutation sous la pression de nombreux domaines d'applications comme les systèmes d'information géographiques, génomiques, scientifiques, les bases documentaires, l'ingénierie, la CAO, les télécommunications. On retrouve dans ces systèmes des données de structures trop complexes pour être gérées dans des SGBD classiques et de plus en plus d'hypermédia. De plus, les SGBD se retrouvent au coeur du traitement de l'information, intimement liés aux processus de création (édition, génération de rapports), de diffusion (intranet et extranet, entrepôts de données) et de décision (analyse de données). On demande donc aux SGBD d'être encore plus ouverts vers d'autres logiciels, de permettre la manipulation de données stockées dans des bases de données et des fichiers répartis à travers un réseau.

Cette évolution s'est faite dans un contexte exigeant en terme de productivité des programmeurs d'application ainsi qu'en terme de performances et ce, malgré des volumes de données de plus en plus considérables. La réponse du domaine a consisté en une utilisation massive du paradigme objet dans le cadre de modèles de données plus riches, et d'architectures distribuées.

On insistera ici sur plusieurs défis :

  • Émergence de nouvelles applications : il s'agit de faire migrer les données d'applications spécifiques (par exemple, des données cartographiques) vers des SGBD avec ce que cela comporte comme nouvelles fonctionnalités. Ces applications créent une dynamique indispensable au domaine qu'il faut savoir utiliser pour enrichir les SGBD existants tout en évitant la balkanisation du domaine. Par exemple, il faut éviter qu'une technique, développée dans le cadre d'une application particulière, ne soit ignorée dans le cadre d'une autre application alors qu'elle s'appliquerait parfaitement.
  • Distribution et intégration de données : les SGBD existants se contentent de bien gérer des données fortement structurées, homogènes, le plus souvent centralisées. Pour gérer des données moins structurées, hétérogènes et réparties à travers un réseau à grande échelle, il faut reconsidérer tous les composants du SGBD depuis l'évaluateur de requêtes jusqu'au gestionnaire de transactions. On notera deux directions en plein développement: (i) les entrepôts de données qui importent des données de plusieurs sources et les intègrent en une base homogène, et (ii) des architectures de type médiateur/adaptateur où les données intégrées existent de manière virtuelle et sont calculées dynamiquement à la demande.
  • Parallélisme : le parallélisme existe de manière inhérente dans les langages de requêtes (l'algèbre relationnelle est par exemple très parallélisable) et les serveurs de bases de données parallèles ont déjà démontré leur énorme potentiel. On doit pouvoir prédire sans trop de risques que le parallélisme s'imposera de plus en plus dans les SGBD. Il reste beaucoup à faire en ce qui concerne l'optimisation de requêtes et le dimensionnement de systèmes dans ce contexte.
  • Accès à l'information : en caricaturant, les SGBD doivent leur succès à leur efficacité à retrouver des informations sous les contraintes suivantes : (i) les données ont une structure rigide et connue, (ii) les données ont une localisation précise et sont le plus souvent centralisées sur un serveur unique, (iii) on dispose d'un modèle de coût (même s'il est grossier), (iv) les données sont alphanumériques, et (v) les données sont supposées fiables et non contradictoires. Chacun de ces points est battu en brèche dans la réalité, notamment du Web. Répondre à ces nouveaux besoins demande d'intégrer des techniques issues de nombreux horizons : recherche d'information, intelligence artificielle, etc.
  • En ce qui concerne plus particulièrement (iv), il faut souligner que les techniques d'interprétation du son et des images ont fait de tels progrès qu'elles sont de plus en plus intégrées à des mécanismes de recherche d'information. D'autre part, les processus de recherche s'appuient de plus en plus sur des modes de visualisation multidimensionnels complexes, pour permettre à l'utilisateur de se déplacer dans les données et de raffiner sa requête.

    Cette liste de défis ne se veut pas exhaustive. On y a volontairement omis une application un peu particulière, la vidéo à la demande, qui, si elle fait intervenir des aspects bases de données, nous semble plutôt principalement un problème de réseau.

    Le domaine des bases de données a le privilège d'être à la fois un domaine très appliqué et de jouir de bases mathématiques déjà éprouvées comme la logique des prédicats, ou développées pour l'occasion comme la théorie de la concurrence. La nécessité d'utiliser des spécifications déclaratives et de disposer de systèmes fiables au comportement cohérent rendent toujours aussi indispensable l'existence de telles bases théoriques. Il faut souligner que de nouvelles théories sur l'expressivité des langages de requêtes (un pont avec la théorie des modèles finis en logique) ou sur les bases de données avec contraintes (un pont avec la programmation logique), même si elles ont des impacts encore limités en pratique, accompagnent l'évolution du domaine.

    Les bases de connaissances et les systèmes cognitifs

    Si bien des domaines des Sciences et Techniques, forts des nombreux résultats antérieurs, ont permis de proposer des structurations fortes de leurs domaines respectifs tout à fait compatibles avec les approches présentées en 2.1., de nombreux autres domaines se caractérisent par une complexité et une structuration qui nécessitent des approches nouvelles, souvent qualifiées d'Intelligence Artificielle et qui, dans la structuration des programmes de l'INRIA, correspondent aux aspects bases de connaissances et systèmes cognitifs du Programme 3A. Bien qu'il soit difficile de spécifier précisément ces domaines, on peut néanmoins en fournir quelques caractéristiques essentielles à travers les connaissances qu'ils mettent en oeuvre et qui les sous-tendent. Ces domaines s'appuient sur :

  • des connaissances qui, jusqu'alors, demeurent non formalisées. Cela se traduit par une place prépondérante à l'expertise humaine et au cumul d'expérience (ce qui, dans nos domaines, a donné naissance aux systèmes experts) ;
  • des modes d'expressions ou supports naturels de ces connaissances pour lesquels, bien que l'on dispose d'un certain nombre de théories descriptives, on demeure à la recherche de modèles opératoires permettant une exploitation aisée sur machine. C'est, en particulier, le cas pour la langue (écrite ou orale), les textes et documents, d'une part, et bon nombre de signaux naturels tels la parole, l'image ou les signaux biomédicaux, d'autre part ;
  • des connaissances accumulées au cours du temps de type mémoire de processus ou d'entreprise sur lesquelles il convient, aujourd'hui, de réaliser un véritable travail de type réingénierie.
  • L'analyse de l'existant au niveau national et international montre l'importance de ces domaines parmi lesquels on peut citer, à titre d'exemples, la mémoire d'entreprise, la gestion, l'exploitation et l'accès par le contenu (certains parlent d'accès sémantique) aux vastes gisements d'informations et de connaissances du Web et de façon plus générale la structuration de connaissances dans des domaines où la complexité des informations les rend difficilement appréhendables par l'homme à l'aide des seules techniques mathématiques ou formelles.

    La Mémoire d'entreprise

    L'évolution de l'organisation du travail, caractérisée au cours des dernières années par, tout à la fois, une technicité de plus en plus forte, une mobilité plus grande des hommes et un temps de travail en diminution (les 35 heures certes mais aussi et surtout un départ à la retraite avancé - à titre d'exemple, la sidérurgie fut contrainte au cours de la dernière décennie de mettre en place des préretraites (dès 50 ans), ce qui a créé des besoins spécifiques dans les entreprises pour conserver la connaissance et le savoir faire accumulés sur les produits (objets manufacturés mais aussi logiciels), les modes et techniques de production, de mise en oeuvre ou d'organisation. C'est ainsi qu'est apparu comme incontournable la gestion d'une mémoire de l'entreprise, où l'informatique tend à pallier les effets induits par cette nouvelle organisation du travail qui ne permet plus de tabler uniquement sur la mémoire des hommes. Pour construire et exploiter une mémoire d'entreprise, dans une organisation disposant de spécialistes humains et d'un système d'informations complexe (incluant par exemple des bases de données, des bibliothèques de programme, des documents éventuellement multimédia), plusieurs thèmes de recherche doivent être approfondis :

  • l'acquisition, la perception, la saisie des informations supports de connaissances ou d'expertises — signaux acoustiques ou vidéo (parole, sonar, image), signaux biomédicaux, textes et documents multimédia, par exemple, — et l'émergence de connaissances à partir d'informations non structurées par classification statistique ou apprentissage automatique —apprentissage symbolique, par réseaux neuronaux, etc.— ;
  • la gestion numérique et électronique de ces informations, qu'elles soient textuelles, sonores ou vidéos ;
  • l'analyse et l'interprétation automatiques ou semi-automatiques de ces informations et connaissances accumulées sous forme de signaux acoustiques, vidéos ou biomédicaux, de textes et documents réglementaires, techniques ou commerciaux : on peut penser à ce niveau à l'exploitation de techniques d'analyses linguistiques pour l'acquisition automatique de connaissances à partir de textes, langue et discours, d'une part, et les traitements de type analogues concernant les graphismes, images et scènes et les documents multimédia, d'autre part ;
  • la modélisation cognitive des activités individuelles ou collectives dans l'entreprise : modélisation des activités mentales et des expertises humaines, du raisonnement et des prises de décision, des produits de l'entreprise — objets manufacturés, programmes, thesaurus et documents techniques, tâches etc.—, et l'intégration de l'ensemble à travers une méthodologie de construction d'une mémoire d'entreprise : aide à la recherche d'informations, fouille de données  (data mining) par exemple ;
  • l'exploitation sous diverses formes de cette mémoire collective : aide à la diffusion des informations ou des connaissances par exemple via un serveur de connaissances (la diffusion et l'utilisation des connaissances peut reposer sur des serveurs de connaissances via le Web, considéré alors comme un moyen privilégié pour l'aide à la gestion des connaissances distribuées intra-entreprise ou inter-entreprises), aide à la mise à jour ou révision des connaissances, formation ou éducation assistée par ordinateur. L'ensemble de ces processus nécessite de définir des modèles, des outils et une méthodologie adaptés ;
  • la matérialisation d'une telle mémoire d'entreprise qui se doit d'intégrer, dans une structure unifiée, des composants hétérogènes : bases de données, systèmes à bases de connaissances (incluant la gestion de multi-expertises ou de multiples points de vue), systèmes documentaires, système(s) hyper et multimédia, gestion intelligente de documents et procédures de raisonnement, d'inférence et d'exploitation pour la recherche d'informations et l'aide à la décision. Une telle mémoire informatisée doit de plus être validée, tant du point de vue de la vision qu'elle fournit de l'expertise de l'entreprise (fidélité, consistance) que de ses modes d'exploitation par les utilisateurs (facilité d'accès, confiance engendrée par son utilisation, par exemple).
  • Gestion et exploitation de connaissances sur le WEB

    Un second point caractéristique de cette "société de l'information" réside dans la nécessité pour l'ensemble des acteurs socio-économiques de savoir exploiter, au mieux, les nouvelles possibilités offertes par le réseau et, en particulier, le web qui représente à n'en pas douter une source d'informations et de connaissances gigantesque et un mode de communication souvent encore mal maîtrisé par les entreprises dans les domaines de la communication interne ou externe, de la veille technologique, du commerce électronique ou du travail à domicile, par exemple. Dans ce cadre, les utilisateurs, le plus souvent non informaticiens, ont besoin d'outils puissants, assez comparables à ceux que nous venons de lister dans le paragraphe sur la mémoire d'entreprise, pour :

  • éditer, saisir et structurer des informations combinant plusieurs médias (textes, sons, graphismes et images, par exemple) ;
  • analyser et interpréter automatiquement ou semi-automatiquement ces informations et connaissances disponibles et qui utilisent largement les supports textuels dans un contexte multilingue ;
  • aider à la navigation dans ces vastes fonds d'informations en s'appuyant sur une modélisation cognitive des activités individuelles ou collectives de veille technologique dans l'entreprise ;
  • exploiter sous diverses formes cette nouvelle technologie du Web : aide à la diffusion des informations ou des connaissances, aide à la mise à jour ou révision des informations etc.
  • Structuration de connaissances dans des domaines nouveaux et/ou mal maîtrisés

    De nombreux domaines d'activité demeurent encore peu structurés et nécessitent des outils spécifiques pour aider à leur compréhension et à leur structuration. Un travail important de modélisation auquel l'informatique peut fortement contribuer est indispensable. A titre d'exemple, on peut penser à la biologie qui a (ou aura) un besoin croissant d'outils de modélisation, en particulier non mathématiques, que notre domaine est susceptible d'apporter. Il serait trop long de développer ici les raisons (plus ou moins faciles à expliciter) de cette conviction, mais on peut penser que l'informatique, par les possibilités originales (par rapport à celles déjà très riches offertes par les mathématiques stricto sensu) de modélisation, est susceptible de jouer, dans les années à venir, vis-à-vis de la biologie, un rôle comparable à celui des mathématiques vis-à-vis de la physique.

    Cela passe alors nécessairement par des besoins de :

    • acquisition, perception et saisie,
    • gestion,
    • analyse et interprétation automatiques ou semi-automatiques,
    • et enfin modélisation de ces informations et connaissances spécifiques au domaine abordé.
    Rejoignant en celà les évaluateurs du Programme 3A, on peut dire que notre objectif doit être de construire des systèmes qui permettent de mettre en contexte des connaissances éparses sur un domaine, d'y attacher des informations pouvant vite constituer un volume considérable et de fournir à l'utilisateur des moyens de structurer, modéliser et exploiter ce puits de connaissances de manière adaptée à chacun de ces problèmes. Ainsi, comme le montrent ces trois exemples, pourtant de natures fort diverses, les possibilités qu'ouvre la société de l'information et qui nécessitent de saisir, structurer, gérer et exploiter des informations et connaissances complexes, nous conduisent à considérer comme prioritaires et incontournables des études et recherches sur les aspects de :
  • perception (de l'acoustique au visuel), saisie, acquisition et édition d'informations et de connaissances multimédia, souvent à forte composante textuelle ou langagière ;
  • structuration et gestion de ces informations et connaissances en participant ou en prenant en compte au mieux les efforts indispensables de normalisation imposée par la mondialisation de fait des vecteurs de communication et d'échange tels l'Internet et le web ;
  • analyse et interprétation de ces informations, qu'elles soient sur support de signal spécifique, parole, langue, texte, graphisme ou image ;
  • extraction, acquisition et modélisation des connaissances sous-jacentes. Deux aspects complémentaires coexistent sur cet aspect : le premier s'appuie sur l'ensemble des informations numérisées — textes, documents multimédia, entre autres —, le second prend en compte des aspects plus spécifiques liés à l'expertise humaine ;
  • exploitation de ces informations et connaissances dans des processus de raisonnement et ou de décision et dans une interaction et communication homme-machine intégrant au mieux les aspects psycho-ergonomiques et dialogiques liés au fonctionnement cognitif de l'homme ;
  • apprentissage et appropriation par l'utilisateur des résultats de l'ensemble de ce processus ;
  • validation ergonomique des logiciels mis en oeuvre et plus particulièrement de leurs interfaces homme-machine.
  • Enfin, comme celà a été souligné par nombre de rapports ou d'études diverses, il convient que nous oeuvrions pour que la nouvelle société de l'information  soit véritablement au service de l'homme et du citoyen en le plaçant au centre de nos réflexion. Il y a là pour l'informatique un défi à relever:  proposer des modèles et des modes opératoires prenant mieux en compte les besoins réels de l'utilisateur humain. A cet égard, les aspects cognitifs et les facteurs humains doivent être considérés comme incontournables et imposent des coopérations plus fortes entre notre discipline et celles des sciences de l'homme et de la société.

    Le Programme 3A de l'INRIA

    Les bases de données

    La recherche en bases de données à l'INRIA est principalement centrée à Rocquencourt autour de deux projets très complémentaires :Rodin, Verso. Pour citer les évaluateurs du programme au sujet de la recherche en bases de données : " Les projets Verso et Rodin ont su se situer à la pointe de la recherche dans le domaine. "

    La communauté française, accusant un certain retard pour les systèmes relationnels, a bien négocié le virage des systèmes à objets. Cela s'est fait par des recherches en amont à l'INRIA, par le biais du GIP Altaïr aussi localisé à Rocquencourt, puis de O2 Technology, une start-up de l'institut. Cette combinaison recherche/industrie a créé une dynamique dont bénéficient tant les industriels que les équipes de recherche français ou européens. Il faut aussi souligner les travaux sur le parallélisme menés à l'INRIA souvent en collaboration avec Bull même si, dans ce domaine, la domination des industriels américains comme Oracle reste prépondérante.

    L'évolution la plus marquante peut-être est un guidage plus étroit que par le passé des travaux de recherche en bases de données par les applications. (Voir Tableau 1 pour un instantané sur l'étude de certaines techniques dans le cadre d'applications particulières par Rodin et Verso.) On notera aussi l'absence relative de certains domaines d'applications essentiels comme les télécoms et la disparition du thème du parallélisme. Ces absences s'expliquent par la modestie des ressources (faible nombre de chercheurs sur poste).

    Si de nombreuses applications bases de données sont considérées dans l'institut, l'effort principal pour des raisons d'efficacité porte sur quelques applications phare:

    1. systèmes d'information pour l'environnement.
    2. librairies, commerce électroniques et données pour le Web.
    3. bases de données cartographiques.
    Rodin et Verso collaborent étroitement avec des acteurs clés de ces domaines, équipes de recherche, organismes publics ou industriels (notamment Bull via le GIE Dyade et O2 Technology fusionnée récemment avec Unidata et Vmark). Ce travail s'effectue le plus souvent dans le cadre de projets européens et en étroite collaboration avec des équipes universitaires de la région parisienne comme le CNAM, Orsay, Dauphine, Paris 6 ou Versailles. Dans le cadre de ces applications, de nouvelles techniques sont développées et validées afin d'appréhender les grands défis mentionnés plus haut :
    1. bases de données avec contraintes, pour la cartographie ;
    2. bases de données actives, pour l'environnement et le commerce électronique ;
    3. intégration de données à la fois suivant des approches entrepôts de données et dans des architecture de médiation, qui sont indispensables dans de nombreuses applications ;
    4. gestion de données semistructurées, c'est-à-dire plus irrégulières que dans les systèmes traditionnels, pour les librairies électroniques et les données du Web.
     
      commerce électronique environnement cartographie Web & librairies électronique
    règles actives V R    
    contraintes     V  
    systèmes objets V   V R/V
    entrepôts de données médiateurs   R   R/V
    semistructuré V R   R/V
    Tableau 1: Applications/Techniques

    Les bases de connaissances et systèmes cognitifs

    Au sein de l'INRIA la majorité des activités des projets ACACIA, DIALOGUE, OPERA, ORION, Psycho-Ergo, REPCO, SHERPA et SYCO relèvent de ce domaine. Certes, comme l'ont noté les évaluateurs du Programme3A, certains projets regroupent des thématiques plus larges mais dans la suite, nous nous focaliserons sur ce qui fait le coeur de ce programme en analysant successivement les atouts, les difficultés et les défis à relever pour l'avenir de ces recherches au sein de l'Institut.

    (a) les atouts de l'Institut

    des équipes de qualités bien insérées dans la communauté scientifique nationale et internationale

    L'un des premiers atouts sur lequel l'institut peut s'appuyer concerne la qualité et la reconnaissance scientifique de ses projets "bases de onnaissances et systèmes cognitifs". Sachant marier, de façon très équilibrée, recherche fondamentale et recherche finalisée, ces projets ont su, pour la plupart, acquérir une position enviable au sein de la communauté scientifique nationale et internationale. Ils collaborent étroitement avec les principaux autres acteurs du domaine, équipes de recherche et organismes publics ou industriels, le plus souvent dans le cadre de structures nationales de coordination tels les GDR-PRC IA et CHM, le GIS Sciences de la Cognition ou l'AFIA (Association Française d'Intelligence Artificielle) ou de projets européens (Esprit BRA LTR ou R&D, HCM ou TMR, Cost, Eureka, Biomed, Telematics) dans lesquels ils furent et sont fortement impliqués.

    un domaine d'étude largement couvert

    Comme le montre le Tableau 2, l'ensemble du domaine décrit au paragraphe 2.2. est assez bien couvert que cela soit sur les aspects de :

    - perception, acquisition, édition et saisie d'informations (signaux acoustiques, langue écrite ou orale, textes, documents multimédia) ;

    - gestion d'informations, en particulier de documents multimédia ou de corpus textuels, sur la base de standards devenus ou appelés à devenir des normes de fait (SGML, HTML, XML) ;

    - analyse et interprétation de la langue et du dialogue, des images et scènes, des documents multimédia, des signaux (en particulier biomédicaux), des expertises humaines et des activités mentales des opérateurs ;

    - modélisation de connaissances liées aux documents, à la langue, aux programmes informatiques, aux raisonnements, aux tâches et aux opérateurs ;

    - exploitation enfin de ces connaissances dans des domaines allant de la communication homme-machine à la robotique en passant par l'apprentissage et l'aide au diagnostic.

     
     
    Acquisition de connaissances, Perception et saisie
    Gestion des informations
    Analyse et interprétation
    Modélisation des connaissances
    Exploitation
    ACACIA    
    Expertise humaine et documents
    Explication et interaction explicative
    Mémoire d'entreprise CHM
    DIALOGUE
    Langue + gestes
    ressources linguistiques corpus textuels
    SGML, XML, 
    Langue naturelle Dialogue et discours
    linguistique
    Structure référentielle
    CHM multimodale
    Industrie de la langue
    OPERA
    Edition de documents multimédia
    Documents multimédia
    SGML, HTML
    Structuration a priori et de documents
    Structures des documents et de leurs traitements
    Atelier éditorial
    Edition et accès aux informations
    ORION    
    Images/scènes
    Tâches pour la résolution de pbs Programmes
    Pilotage de programmes
    Psycho-Ergo    
    Activités mentales des opérateurs
    Tâches pour l'interface
    opérateur humain
    Ergonomie du logiciel et de sites Web,
    CHM
    REPCO    
    Langage naturel
    Usager
    Apprentissage Classification
    Assistance
    Aide à la surveillance
     

    SHERPA

     
    à partir de textes
       
    Tâche pour des bases de connaissances. à objet, avec contraintes,
    Terminologie
    Liaison base de connaissances et Web
    Aide au diagnostic
    Génome
    Mémoire d'entreprise
    SYCO
    Signaux acoustiques (parole, sonar...)
     
    Signaux acoustiques et biomédicaux
    Raisonnement,
    connexionnisme
    stochastique
    Robotique, aide à la décision
    Tableau 2 : les domaines de recherche couverts
    une bonne prise en compte des principaux domaines d'application considérés comme les plus prometteurs pour l'avenir

    Une rapide analyse des contrats et domaines applicatifs des divers projets de ce programme (cf. Tableau 3.) montre bien l'implication des projets dans les divers domaines clés pour l'avenir que sont :

    - les industries de la langue et l'édition électronique,
    - les industries du logiciel,
    - la mémoire d'entreprise,
    - les télécommunications,
    - le secteur médecine, santé et biologie,
    - la télésurveillance,
    - les transports,
    - et le Web
    et qui apparaissent comme principaux domaines applicatifs structurant des grands projets nationaux et internationaux (cf. le programme des technologies de l'information dans le cadre du futur 5ème PRCD européen).
     
    Domaines applicatifs ACACIA DIALOGUE OPERA ORION PSYCHO-ERGO REPCO SHERPA SYCO-RFIA
    Edition X X  
    Industrie de la langue X X
    Industrie du logiciel (ergonomie des logiciels)   X
    Industrie lourde (sidérurgie) X X X
    Mémoire d'entreprise X X   X X
    Télécommunications X X X X
    Médecine, santé, biologie moléculaire X X X X X X
    Télé-surveillance X X X
    Transports X X X X X X
    Web (serveur données et connaissances) X X X   X
    Tableau 3 : les principaux domaines applicatifs
    des ouvertures pluridisciplinaires fortes
    que cela soit à l'intérieur même des technologies de l'information (de l'intelligence artificielle au génie logiciel) ou avec les Sciences de l'Homme et de la Société (psychologie, ergonomie cognitive et sciences du langage) et avec le secteur Santé et Biologie, ce caractère pluridisciplinaire loin d'être un désavantage constitue, en effet, comme le notent les évaluateurs, l'une des grandes richesses et particularités de ce programme.
    (b) les difficultés ou faiblesses existantes

    Ce serait, il faut l'avouer, une erreur d'omettre de noter dans un tel rapport certaines difficultés ou faiblesses qu'il convient à l'avenir de surmonter ou dépasser. Parmi les plus importantes (deux difficultés figurent dans le rapport d'évaluation du programme) il convient de citer :

    un certain "mal être" au sein de l'Institut dû à une perception pas toujours positive de la pluridisciplinarité développée au sein de nos projets. Sans aller jusqu'à affirmer qu'au sein de l'Institut, seule la pluridisciplinarité mathématiques-informatique possède de véritables lettres de noblesse, on doit néanmoins s'interroger sur les raisons qui conduisent à ce "mal être", nettement perceptible lors du dernier séminaire d'évaluation : problème de recrutement au sein des projets, problème de perception interne de recherches menées dans un cadre pluridisciplinaire particulier (avec SHS et SDV), problèmes de visibilité des résultats qui nécessitent de longs traitements sur d'énormes quantités d'informations et dont l'évaluation objective n'est pas toujours facile à réaliser, etc.

    une certaine dispersion et en tout cas un manque de concertation stratégique entre projets, assez bien analysés en pages 3 et 4 du rapport d'évaluation de ce programme. A ce propos, il convient de s'interroger sur l'utilisation du vocable " projet " au sein de l'Institut comme identifiant de ce qui correspond de fait à des équipes de recherche. Cela ne nuit-il pas à l'apparition de véritables projets finalisés et limités dans le temps qu'il conviendrait de faire émerger par la mise en synergie de chercheurs issus de diverses équipes ? Mais peut-être convient-il de chercher ailleurs, dans l'histoire de la constitution de ce programme et de chacun de ses projets, les raisons qui conduisent à " cette impression d'une simple juxtaposition de projets faiblement coordonnés entre eux " (cf. rapport d'évaluation).

    un manque flagrant dans le domaine du tutorial intelligent ou de la formation assistée par ordinateur. A un moment où tous, les politiques certes, mais aussi et surtout les professionnels, s'accordent sur l'importance que doivent prendre à l'avenir les nouvelles technologies de l'information dans l'éducation et la formation continue, il convient de s'interroger sur cette absence au sein de l'institut, d'autant qu'hélas, elle semble n'être que le reflet assez fidèle de ce qui se passe plus globalement dans la recherche universitaire française.

    un potentiel insuffisant dans le domaine de l'informatique-linguistique et de l'ingénierie des langues à un moment où le développement du web, par exemple, donne à l'écrit une place centrale qui nécessite des outils appropriés d'accès et d'analyse de contenus linguistiques.

    (c) des défis à relever pour l'avenir

    Les premiers consistent sans doute à dépasser les difficultés et combler les faiblesses notées ci-dessus. Mais au delà, et en s'appuyant sur les atouts qui sont les nôtres, il convient de répondre pour l'avenir à divers défis dont les deux principaux sont :

  • trouver de nouveaux outils et méthodes de modélisation, en particulier non mathématiques, que notre domaine est susceptible d'apporter pour aider à mieux comprendre les domaines que nous abordons et dont la caractéristique première est d'être peu ou faiblement structurés (ou pour le moins à structure non explicite aujourd'hui !) - cf. exemple 3 du paragraphe 2.2. ;
  • répondre aux problèmes cruciaux de gestion et d'exploitation des informations et connaissances au sein de l'entreprise (intranet) et plus généralement à travers le développement du Web et des techniques de télécommunications. En d'autres termes, comme le notait le rapport d'évaluation (p. 14) asseoir ce nouveau concept de systèmes de gestion de connaissances, qui tend à supplanter, dans les entreprises et organisations, en général, le célèbre système d'information. Il y a là un défi formidable pour notre domaine, et en particulier pour le développement de techniques d'analyse et de compréhension de textes, de discours et de documents multimédia, d'une part, de gestion simultanée de connaissances formelles, textuelles, graphiques et visuelles, d'autre part.
  • En guise de conclusion

    Si, dans ce court rapport de prospective, les rédacteurs ont, d'un commun accord, décidé de traiter dans des parties séparées les aspects Bases de données et Bases de connaissances et systèmes cognitifs  c'est parce que cette séparation correspond à une réalité tant au sein de l'institut, que d'ailleurs dans de nombreux autres organismes de recherche. Mais il est clair que ces problématiques se rejoignent et qu'un grand défi pour l'avenir est sans aucun doute de mieux établir les liens entre ces deux parties du programme. Par exemple, nous avons vu qu'un des défis des bases de données est la gestion de données semi-structurées, c'est-à-dire plus irrégulières que dans les systèmes traditionnels. Les bases de connaissances et systèmes cognitifs, quant à eux, abordent des domaines peu structurés par nature et développent tout un travail de modélisation pour mieux comprendre et structurer ces domaines. La gestion d'information reste un tout avec des données qui s'enrichissent, se structurent. Il faut donc oeuvrer pour que, dans les quatre années à venir, bases de données, bases de connaissances et systèmes cognitifs sachent ensemble faire progresser les méthodes et techniques de saisie, gestion, analyse et interprétation, modélisation et exploitation des contenus informatifs et connaissances véhiculés sous le concept de société de l'information  dans un programme plus unifié et plus coopératif.

    --------------------------------
    début de la page    | page d'accueil du site
    © INRIA - mise à jour le 13/02/2001 - webmaster@inria.fr