|






|

|
Rapports de prospective scientifique
|

Rapport de prospective - Bases de
données, bases de connaissances, systèmes cognitifs
Serge Abiteboul et Jean-Marie Pierrel
Introduction
La presse généraliste consacre suffisamment d'attention
à la gestion d'information dans l'entreprise (intranet) et au
niveau mondial (Internet, Web, autoroutes de l'information) et aux impacts
sur la société des technologies de l'information pour
qu'il semble inutile d'insister sur l'ampleur de la révolution
en cours autour de l'informatique, et sur ses enjeux industriels et
commerciaux. Prenant la suite de la "société industrielle",
on parle de plus en plus, aujourd'hui, de la " société
de l'information ".
S'il est clair que, dans ce cadre, les aspects "réseaux et télécommunications"
sont incontournables comme moyen de transmission de cette information,
les études et rapports parus au cours des derniers mois mettent
de plus en plus l'accent sur la nécessité de s'intéresser,
au moins autant, au contenu : acquisition, gestion, structuration,
analyse et interprétation, modélisation et exploitation
des informations et connaissances.
Le Programme 3A de l'INRIA Bases de données, bases de connaissances
et systèmes cognitifs adressant directement ces problèmes
apparaît comme un des atouts importants de l'Institut pour contribuer,
à travers des recherches fondamentales et finalisées,
à l'établissement d'une telle société de
l'information. Ce programme s'est structuré historiquement sur
la base de deux grandes thématiques :
- les bases de données qui, dans ce cadre, s'attachent
plus particulièrement à définir des systèmes
informatiques permettant à l'utilisateur de gérer et
exploiter au mieux ses informations, dans un contexte caractérisé
tout à la fois par la présence d'informations fortement
diversifiées (données multimédia) et réparties
(données réparties).
- les bases de connaissances et les systèmes cognitifs
dont l'objectif premier est de modéliser des domaines à
priori peu ou mal structurés. Le résultat recherché
est alors de définir une structure de connaissances, support
de mécanismes de raisonnement et d'exploitation formellement
définis.
La gestion et l'exploitation d'informations et de connaissances complexes
: Un défi pour une société de l'information plus
conviviale
Les bases de données
Le domaine des systèmes de gestion de bases de données
(SGBD) est un domaine par nature transversal, faisant intervenir
des aspects systèmes, algorithmiques et langages. La standardisation
du langage de requêtes SQL dans les années 80 et le développement
d'algorithmes robustes et efficaces pour la gestion de transactions
ou l'optimisation de requêtes ont rendu l'utilisation de systèmes
relationnels omniprésente dans les applications de bases de données.
De la même manière, la définition du langage de
requêtes standard OQL a contribué à l'essor des
systèmes à objets au cours des dernières années.
Aujourd'hui, les SGBD représentent un vaste marché bien
défini : systèmes relationnels pour postes de travail
ou gros ordinateurs (par exemple, DB2, Oracle, Sybase), systèmes
pour micros (par exemple, Access, Paradox, DBase), systèmes à
objets (par exemple, Object Store, O2, Versant).
Dans le même temps, le développement de bases théoriques
solides s'appuyant sur les acquis de disciplines informatiques connexes
(par exemple, langages de programmation) a permis d'imposer le domaine
de la recherche en bases de données comme domaine de recherche
appliquée à part entière.
Les SGBD, au départ principalement tirés par les
applications commerciales (par exemple, bancaires), ont vécu
une profonde mutation sous la pression de nombreux domaines d'applications
comme les systèmes d'information géographiques, génomiques,
scientifiques, les bases documentaires, l'ingénierie, la CAO,
les télécommunications. On retrouve dans ces systèmes
des données de structures trop complexes pour être gérées
dans des SGBD classiques et de plus en plus d'hypermédia. De
plus, les SGBD se retrouvent au coeur du traitement de l'information,
intimement liés aux processus de création (édition,
génération de rapports), de diffusion (intranet et extranet,
entrepôts de données) et de décision (analyse de
données). On demande donc aux SGBD d'être encore plus ouverts
vers d'autres logiciels, de permettre la manipulation de données
stockées dans des bases de données et des fichiers répartis
à travers un réseau.
Cette évolution s'est faite dans un contexte exigeant en terme
de productivité des programmeurs d'application ainsi qu'en terme
de performances et ce, malgré des volumes de données de
plus en plus considérables. La réponse du domaine a consisté
en une utilisation massive du paradigme objet dans le cadre de modèles
de données plus riches, et d'architectures distribuées.
On insistera ici sur plusieurs défis :
Émergence de nouvelles applications
: il s'agit de faire migrer les données d'applications
spécifiques (par exemple, des données cartographiques)
vers des SGBD avec ce que cela comporte comme nouvelles fonctionnalités.
Ces applications créent une dynamique indispensable au domaine
qu'il faut savoir utiliser pour enrichir les SGBD existants tout en
évitant la balkanisation du domaine. Par exemple, il faut éviter
qu'une technique, développée dans le cadre d'une application
particulière, ne soit ignorée dans le cadre d'une autre
application alors qu'elle s'appliquerait parfaitement.
Distribution et intégration de
données : les SGBD existants se contentent de bien
gérer des données fortement structurées, homogènes,
le plus souvent centralisées. Pour gérer des données
moins structurées, hétérogènes et réparties
à travers un réseau à grande échelle,
il faut reconsidérer tous les composants du SGBD depuis l'évaluateur
de requêtes jusqu'au gestionnaire de transactions. On notera
deux directions en plein développement: (i) les entrepôts
de données qui importent des données de plusieurs
sources et les intègrent en une base homogène, et (ii)
des architectures de type médiateur/adaptateur où
les données intégrées existent de manière
virtuelle et sont calculées dynamiquement à la demande.
Parallélisme : le parallélisme
existe de manière inhérente dans les langages de requêtes
(l'algèbre relationnelle est par exemple très parallélisable)
et les serveurs de bases de données parallèles ont déjà
démontré leur énorme potentiel. On doit pouvoir
prédire sans trop de risques que le parallélisme s'imposera
de plus en plus dans les SGBD. Il reste beaucoup à faire en
ce qui concerne l'optimisation de requêtes et le dimensionnement
de systèmes dans ce contexte.
Accès à l'information :
en caricaturant, les SGBD doivent leur succès à leur
efficacité à retrouver des informations sous les contraintes
suivantes : (i) les données ont une structure rigide et connue,
(ii) les données ont une localisation précise et sont
le plus souvent centralisées sur un serveur unique, (iii) on
dispose d'un modèle de coût (même s'il est grossier),
(iv) les données sont alphanumériques, et (v) les données
sont supposées fiables et non contradictoires. Chacun de ces
points est battu en brèche dans la réalité, notamment
du Web. Répondre à ces nouveaux besoins demande d'intégrer
des techniques issues de nombreux horizons : recherche d'information,
intelligence artificielle, etc.
En ce qui concerne plus particulièrement (iv), il faut souligner
que les techniques d'interprétation du son et des images ont fait
de tels progrès qu'elles sont de plus en plus intégrées
à des mécanismes de recherche d'information. D'autre part,
les processus de recherche s'appuient de plus en plus sur des modes de
visualisation multidimensionnels complexes, pour permettre à l'utilisateur
de se déplacer dans les données et de raffiner sa requête.
Cette liste de défis ne se veut pas exhaustive. On y a volontairement
omis une application un peu particulière, la vidéo à
la demande, qui, si elle fait intervenir des aspects bases de données,
nous semble plutôt principalement un problème de réseau.
Le domaine des bases de données a le privilège d'être
à la fois un domaine très appliqué et de jouir
de bases mathématiques déjà éprouvées
comme la logique des prédicats, ou développées
pour l'occasion comme la théorie de la concurrence. La nécessité
d'utiliser des spécifications déclaratives et de disposer
de systèmes fiables au comportement cohérent rendent toujours
aussi indispensable l'existence de telles bases théoriques. Il
faut souligner que de nouvelles théories sur l'expressivité
des langages de requêtes (un pont avec la théorie des modèles
finis en logique) ou sur les bases de données avec contraintes
(un pont avec la programmation logique), même si elles ont des
impacts encore limités en pratique, accompagnent l'évolution
du domaine.
Les bases de connaissances et les systèmes cognitifs
Si bien des domaines des Sciences et Techniques, forts des nombreux
résultats antérieurs, ont permis de proposer des structurations
fortes de leurs domaines respectifs tout à fait compatibles avec
les approches présentées en 2.1., de nombreux autres domaines
se caractérisent par une complexité et une structuration
qui nécessitent des approches nouvelles, souvent qualifiées
d'Intelligence Artificielle et qui, dans la structuration
des programmes de l'INRIA, correspondent aux aspects bases de connaissances
et systèmes cognitifs du Programme 3A. Bien qu'il soit difficile
de spécifier précisément ces domaines, on peut
néanmoins en fournir quelques caractéristiques essentielles
à travers les connaissances qu'ils mettent en oeuvre et qui les
sous-tendent. Ces domaines s'appuient sur :
des connaissances qui, jusqu'alors, demeurent non formalisées.
Cela se traduit par une place prépondérante à
l'expertise humaine et au cumul d'expérience (ce qui, dans
nos domaines, a donné naissance aux systèmes experts)
;
des modes d'expressions ou supports naturels de ces connaissances
pour lesquels, bien que l'on dispose d'un certain nombre de théories
descriptives, on demeure à la recherche de modèles opératoires
permettant une exploitation aisée sur machine. C'est, en particulier,
le cas pour la langue (écrite ou orale), les textes et documents,
d'une part, et bon nombre de signaux naturels tels la parole, l'image
ou les signaux biomédicaux, d'autre part ;
des connaissances accumulées au cours du temps de type mémoire
de processus ou d'entreprise sur lesquelles il convient, aujourd'hui,
de réaliser un véritable travail de type réingénierie.
L'analyse de l'existant au niveau national et international montre l'importance
de ces domaines parmi lesquels on peut citer, à titre d'exemples,
la mémoire d'entreprise, la gestion, l'exploitation et l'accès
par le contenu (certains parlent d'accès sémantique) aux
vastes gisements d'informations et de connaissances du Web et de façon
plus générale la structuration de connaissances dans des
domaines où la complexité des informations les rend difficilement
appréhendables par l'homme à l'aide des seules techniques
mathématiques ou formelles.
La Mémoire d'entreprise
L'évolution de l'organisation du travail, caractérisée
au cours des dernières années par, tout à la fois,
une technicité de plus en plus forte, une mobilité plus
grande des hommes et un temps de travail en diminution (les 35 heures
certes mais aussi et surtout un départ à la retraite avancé
- à titre d'exemple, la sidérurgie fut contrainte au cours
de la dernière décennie de mettre en place des préretraites
(dès 50 ans), ce qui a créé des besoins spécifiques
dans les entreprises pour conserver la connaissance et le savoir faire
accumulés sur les produits (objets manufacturés mais aussi
logiciels), les modes et techniques de production, de mise en oeuvre
ou d'organisation. C'est ainsi qu'est apparu comme incontournable la
gestion d'une mémoire de l'entreprise, où l'informatique
tend à pallier les effets induits par cette nouvelle organisation
du travail qui ne permet plus de tabler uniquement sur la mémoire
des hommes. Pour construire et exploiter une mémoire d'entreprise,
dans une organisation disposant de spécialistes humains et d'un
système d'informations complexe (incluant par exemple des bases
de données, des bibliothèques de programme, des documents
éventuellement multimédia), plusieurs thèmes de
recherche doivent être approfondis :
l'acquisition, la perception, la saisie
des informations supports de connaissances ou d'expertises
— signaux acoustiques ou vidéo (parole, sonar, image), signaux
biomédicaux, textes et documents multimédia, par exemple,
— et l'émergence de connaissances à partir d'informations
non structurées par classification statistique ou apprentissage
automatique —apprentissage symbolique, par réseaux neuronaux,
etc.— ;
la gestion numérique et électronique
de ces informations, qu'elles soient textuelles, sonores ou vidéos
;
l'analyse et l'interprétation
automatiques ou semi-automatiques de ces informations et connaissances
accumulées sous forme de signaux acoustiques, vidéos
ou biomédicaux, de textes et documents réglementaires,
techniques ou commerciaux : on peut penser à ce niveau à
l'exploitation de techniques d'analyses linguistiques pour l'acquisition
automatique de connaissances à partir de textes, langue et
discours, d'une part, et les traitements de type analogues concernant
les graphismes, images et scènes et les documents multimédia,
d'autre part ;
la modélisation cognitive des
activités individuelles ou collectives dans l'entreprise :
modélisation des activités mentales et des expertises
humaines, du raisonnement et des prises de décision, des produits
de l'entreprise — objets manufacturés, programmes, thesaurus
et documents techniques, tâches etc.—, et l'intégration
de l'ensemble à travers une méthodologie de construction
d'une mémoire d'entreprise : aide à la recherche d'informations,
fouille de données (data mining) par exemple ;
l'exploitation sous diverses
formes de cette mémoire collective : aide à la diffusion
des informations ou des connaissances par exemple via un serveur de
connaissances (la diffusion et l'utilisation des connaissances peut
reposer sur des serveurs de connaissances via le Web, considéré
alors comme un moyen privilégié pour l'aide à
la gestion des connaissances distribuées intra-entreprise ou
inter-entreprises), aide à la mise à jour ou révision
des connaissances, formation ou éducation assistée par
ordinateur. L'ensemble de ces processus nécessite de définir
des modèles, des outils et une méthodologie adaptés
;
la matérialisation d'une
telle mémoire d'entreprise qui se doit d'intégrer, dans
une structure unifiée, des composants hétérogènes
: bases de données, systèmes à bases de connaissances
(incluant la gestion de multi-expertises ou de multiples points de
vue), systèmes documentaires, système(s) hyper et multimédia,
gestion intelligente de documents et procédures de raisonnement,
d'inférence et d'exploitation pour la recherche d'informations
et l'aide à la décision. Une telle mémoire informatisée
doit de plus être validée, tant du point de vue de la
vision qu'elle fournit de l'expertise de l'entreprise (fidélité,
consistance) que de ses modes d'exploitation par les utilisateurs
(facilité d'accès, confiance engendrée par son
utilisation, par exemple).
Gestion et exploitation de connaissances sur le WEB
Un second point caractéristique de cette "société
de l'information" réside dans la nécessité pour
l'ensemble des acteurs socio-économiques de savoir exploiter,
au mieux, les nouvelles possibilités offertes par le réseau
et, en particulier, le web qui représente à n'en pas douter
une source d'informations et de connaissances gigantesque et un mode
de communication souvent encore mal maîtrisé par les entreprises
dans les domaines de la communication interne ou externe, de la veille
technologique, du commerce électronique ou du travail à
domicile, par exemple. Dans ce cadre, les utilisateurs, le plus souvent
non informaticiens, ont besoin d'outils puissants, assez comparables
à ceux que nous venons de lister dans le paragraphe sur la mémoire
d'entreprise, pour :
éditer, saisir et structurer
des informations combinant plusieurs médias (textes, sons,
graphismes et images, par exemple) ;
analyser et interpréter automatiquement
ou semi-automatiquement ces informations et connaissances disponibles
et qui utilisent largement les supports textuels dans un contexte
multilingue ;
aider à la navigation
dans ces vastes fonds d'informations en s'appuyant sur une modélisation
cognitive des activités individuelles ou collectives de veille
technologique dans l'entreprise ;
exploiter sous diverses formes
cette nouvelle technologie du Web : aide à la diffusion des
informations ou des connaissances, aide à la mise à
jour ou révision des informations etc.
Structuration de connaissances dans des domaines nouveaux et/ou mal
maîtrisés
De nombreux domaines d'activité demeurent encore peu structurés
et nécessitent des outils spécifiques pour aider à
leur compréhension et à leur structuration. Un travail
important de modélisation auquel l'informatique peut fortement
contribuer est indispensable. A titre d'exemple, on peut penser à
la biologie qui a (ou aura) un besoin croissant d'outils de modélisation,
en particulier non mathématiques, que notre domaine est susceptible
d'apporter. Il serait trop long de développer ici les raisons
(plus ou moins faciles à expliciter) de cette conviction, mais
on peut penser que l'informatique, par les possibilités originales
(par rapport à celles déjà très riches offertes
par les mathématiques stricto sensu) de modélisation,
est susceptible de jouer, dans les années à venir, vis-à-vis
de la biologie, un rôle comparable à celui des mathématiques
vis-à-vis de la physique.
Cela passe alors nécessairement par des besoins de :
- acquisition, perception et saisie,
- gestion,
- analyse et interprétation automatiques ou semi-automatiques,
- et enfin modélisation de ces informations et connaissances
spécifiques au domaine abordé.
Rejoignant en celà les évaluateurs du Programme 3A, on peut
dire que notre objectif doit être de construire des systèmes
qui permettent de mettre en contexte des connaissances éparses
sur un domaine, d'y attacher des informations pouvant vite constituer
un volume considérable et de fournir à l'utilisateur des
moyens de structurer, modéliser et exploiter ce puits de connaissances
de manière adaptée à chacun de ces problèmes.
Ainsi, comme le montrent ces trois exemples, pourtant de natures
fort diverses, les possibilités qu'ouvre la société
de l'information et qui nécessitent de saisir, structurer, gérer
et exploiter des informations et connaissances complexes, nous conduisent
à considérer comme prioritaires et incontournables des études
et recherches sur les aspects de :
perception (de l'acoustique au visuel), saisie, acquisition
et édition d'informations et de connaissances multimédia,
souvent à forte composante textuelle ou langagière ;
structuration et gestion de ces informations et connaissances
en participant ou en prenant en compte au mieux les efforts indispensables
de normalisation imposée par la mondialisation de fait des
vecteurs de communication et d'échange tels l'Internet et le
web ;
analyse et interprétation de ces informations, qu'elles
soient sur support de signal spécifique, parole, langue, texte,
graphisme ou image ;
extraction, acquisition et modélisation des connaissances
sous-jacentes. Deux aspects complémentaires coexistent sur
cet aspect : le premier s'appuie sur l'ensemble des informations numérisées
— textes, documents multimédia, entre autres —, le second prend
en compte des aspects plus spécifiques liés à
l'expertise humaine ;
exploitation de ces informations et connaissances dans des
processus de raisonnement et ou de décision et dans une interaction
et communication homme-machine intégrant au mieux les aspects
psycho-ergonomiques et dialogiques liés au fonctionnement cognitif
de l'homme ;
apprentissage et appropriation par l'utilisateur des résultats
de l'ensemble de ce processus ;
validation ergonomique des logiciels mis en oeuvre et plus
particulièrement de leurs interfaces homme-machine.
Enfin, comme celà a été souligné par nombre
de rapports ou d'études diverses, il convient que nous oeuvrions
pour que la nouvelle société de l'information soit
véritablement au service de l'homme et du citoyen en le plaçant
au centre de nos réflexion. Il y a là pour l'informatique
un défi à relever: proposer des modèles et
des modes opératoires prenant mieux en compte les besoins réels
de l'utilisateur humain. A cet égard, les aspects cognitifs et
les facteurs humains doivent être considérés comme
incontournables et imposent des coopérations plus fortes entre
notre discipline et celles des sciences de l'homme et de la société.
Le Programme 3A de l'INRIA
Les bases de données
La recherche en bases de données à l'INRIA est principalement
centrée à Rocquencourt autour de deux projets très
complémentaires :Rodin, Verso. Pour citer les évaluateurs
du programme au sujet de la recherche en bases de données : "
Les projets Verso et Rodin ont su se situer à la pointe de la
recherche dans le domaine. "
La communauté française, accusant un certain retard pour
les systèmes relationnels, a bien négocié le virage
des systèmes à objets. Cela s'est fait par des recherches
en amont à l'INRIA, par le biais du GIP Altaïr aussi localisé
à Rocquencourt, puis de O2 Technology, une
start-up de l'institut. Cette combinaison recherche/industrie a créé
une dynamique dont bénéficient tant les industriels que
les équipes de recherche français ou européens.
Il faut aussi souligner les travaux sur le parallélisme menés
à l'INRIA souvent en collaboration avec Bull même si, dans
ce domaine, la domination des industriels américains comme Oracle
reste prépondérante.
L'évolution la plus marquante peut-être est un guidage
plus étroit que par le passé des travaux de recherche
en bases de données par les applications. (Voir Tableau 1 pour
un instantané sur l'étude de certaines techniques dans
le cadre d'applications particulières par Rodin et Verso.) On
notera aussi l'absence relative de certains domaines d'applications
essentiels comme les télécoms et la disparition du thème
du parallélisme. Ces absences s'expliquent par la modestie des
ressources (faible nombre de chercheurs sur poste).
Si de nombreuses applications bases de données sont considérées
dans l'institut, l'effort principal pour des raisons d'efficacité
porte sur quelques applications phare:
- systèmes d'information pour l'environnement.
- librairies, commerce électroniques et données pour
le Web.
- bases de données cartographiques.
Rodin et Verso collaborent étroitement avec des acteurs clés
de ces domaines, équipes de recherche, organismes publics ou industriels
(notamment Bull via le GIE Dyade et O 2 Technology
fusionnée récemment avec Unidata et Vmark). Ce travail s'effectue
le plus souvent dans le cadre de projets européens et en étroite
collaboration avec des équipes universitaires de la région
parisienne comme le CNAM, Orsay, Dauphine, Paris 6 ou Versailles. Dans
le cadre de ces applications, de nouvelles techniques sont développées
et validées afin d'appréhender les grands défis mentionnés
plus haut :
- bases de données avec contraintes, pour la cartographie
;
- bases de données actives, pour l'environnement et le commerce
électronique ;
- intégration de données à la fois suivant des
approches entrepôts de données et dans des architecture
de médiation, qui sont indispensables dans de nombreuses applications
;
- gestion de données semistructurées, c'est-à-dire
plus irrégulières que dans les systèmes traditionnels,
pour les librairies électroniques et les données du
Web.
| |
commerce électronique |
environnement |
cartographie |
Web & librairies électronique |
| règles actives |
V |
R |
|
|
| contraintes |
|
|
V |
|
| systèmes objets |
V |
|
V |
R/V |
| entrepôts de données médiateurs |
|
R |
|
R/V |
| semistructuré |
V |
R |
|
R/V |
Tableau 1: Applications/Techniques
Les bases de connaissances et systèmes cognitifs
Au sein de l'INRIA la majorité des activités des projets
ACACIA, DIALOGUE, OPERA, ORION, Psycho-Ergo, REPCO, SHERPA et SYCO relèvent
de ce domaine. Certes, comme l'ont noté les évaluateurs
du Programme3A, certains projets regroupent des thématiques plus
larges mais dans la suite, nous nous focaliserons sur ce qui fait le
coeur de ce programme en analysant successivement les atouts, les difficultés
et les défis à relever pour l'avenir de ces recherches
au sein de l'Institut.
(a) les atouts de l'Institut
des équipes de qualités bien insérées
dans la communauté scientifique nationale et internationale
L'un des premiers atouts sur lequel l'institut peut s'appuyer concerne
la qualité et la reconnaissance scientifique de ses projets
"bases de onnaissances et systèmes cognitifs". Sachant marier,
de façon très équilibrée, recherche fondamentale
et recherche finalisée, ces projets ont su, pour la plupart,
acquérir une position enviable au sein de la communauté
scientifique nationale et internationale. Ils collaborent étroitement
avec les principaux autres acteurs du domaine, équipes de recherche
et organismes publics ou industriels, le plus souvent dans le cadre
de structures nationales de coordination tels les GDR-PRC IA et CHM,
le GIS Sciences de la Cognition ou l'AFIA (Association Française
d'Intelligence Artificielle) ou de projets européens (Esprit
BRA LTR ou R&D, HCM ou TMR, Cost, Eureka, Biomed, Telematics)
dans lesquels ils furent et sont fortement impliqués.
un domaine d'étude largement couvert
Comme le montre le Tableau 2, l'ensemble du domaine décrit
au paragraphe 2.2. est assez bien couvert que cela soit sur les aspects
de :
- perception, acquisition, édition
et saisie d'informations (signaux acoustiques, langue écrite
ou orale, textes, documents multimédia) ;
- gestion d'informations, en
particulier de documents multimédia ou de corpus textuels,
sur la base de standards devenus ou appelés à devenir
des normes de fait (SGML, HTML, XML) ;
- analyse et interprétation de
la langue et du dialogue, des images et scènes,
des documents multimédia, des signaux (en particulier biomédicaux),
des expertises humaines et des activités mentales des opérateurs
;
- modélisation de connaissances
liées aux documents, à la langue, aux programmes informatiques,
aux raisonnements, aux tâches et aux opérateurs ;
- exploitation enfin de ces
connaissances dans des domaines allant de la communication homme-machine
à la robotique en passant par l'apprentissage et l'aide au
diagnostic.
| |
Acquisition
de connaissances, Perception et saisie
|
Gestion
des informations
|
Analyse
et interprétation
|
Modélisation
des connaissances
|
Exploitation
|
| ACACIA |
|
|
Expertise humaine et documents
|
Explication et interaction explicative
|
Mémoire d'entreprise CHM
|
| DIALOGUE |
Langue + gestes
|
ressources linguistiques corpus textuels
SGML, XML,
|
Langue naturelle Dialogue et discours
|
linguistique
Structure référentielle
|
CHM multimodale
Industrie de la langue
|
| OPERA |
Edition de documents multimédia
|
Documents multimédia
SGML, HTML
|
Structuration a priori et de documents
|
Structures des documents et de leurs traitements
|
Atelier éditorial
Edition et accès aux informations
|
| ORION |
|
|
Images/scènes
|
Tâches pour la résolution de pbs Programmes
|
Pilotage de programmes
|
| Psycho-Ergo |
|
|
Activités mentales des opérateurs
|
Tâches pour l'interface
opérateur humain
|
Ergonomie du logiciel et de sites Web,
CHM
|
| REPCO |
|
|
Langage naturel
|
Usager
|
Apprentissage Classification
Assistance
Aide à la surveillance
|
|
SHERPA
|
à partir de textes
|
|
|
Tâche pour des bases de connaissances. à
objet, avec contraintes,
Terminologie
|
Liaison base de connaissances et Web
Aide au diagnostic
Génome
Mémoire d'entreprise
|
| SYCO |
Signaux acoustiques (parole, sonar...)
|
|
Signaux acoustiques et biomédicaux
|
Raisonnement,
connexionnisme
stochastique
|
Robotique, aide à la décision
|
Tableau 2 : les domaines de recherche couverts
une bonne prise en compte des principaux domaines d'application
considérés comme les plus prometteurs pour l'avenir
Une rapide analyse des contrats et domaines applicatifs des divers
projets de ce programme (cf. Tableau 3.) montre bien l'implication
des projets dans les divers domaines clés pour l'avenir que
sont :
- les industries de la langue et l'édition électronique,
- les industries du logiciel,
- la mémoire d'entreprise,
- les télécommunications,
- le secteur médecine, santé et biologie,
- la télésurveillance,
- les transports,
- et le Web
et qui apparaissent comme principaux domaines applicatifs
structurant des grands projets nationaux et internationaux (cf. le programme
des technologies de l'information dans le cadre du futur 5ème
PRCD européen).
| Domaines
applicatifs |
ACACIA |
DIALOGUE |
OPERA |
ORION |
PSYCHO-ERGO |
REPCO |
SHERPA |
SYCO-RFIA |
| Edition |
|
|
X |
X |
|
|
|
|
| Industrie de la langue |
X |
X |
|
|
|
|
|
|
| Industrie du logiciel (ergonomie
des logiciels) |
|
|
|
|
X |
|
|
|
| Industrie lourde (sidérurgie) |
|
|
|
X |
|
X |
|
X |
| Mémoire d'entreprise |
X |
|
X |
|
|
|
X |
X |
| Télécommunications |
X |
X |
|
|
|
X |
|
X |
| Médecine, santé,
biologie moléculaire |
X |
X |
|
X |
|
X |
X |
X |
| Télé-surveillance |
X |
|
|
X |
|
|
|
X |
| Transports |
X |
X |
|
X |
X |
X |
|
X |
| Web (serveur données
et connaissances) |
X |
X |
X |
|
X |
|
X |
|
Tableau 3 : les principaux domaines applicatifs
des ouvertures pluridisciplinaires fortes
que cela soit à l'intérieur même des technologies
de l'information (de l'intelligence artificielle au génie logiciel)
ou avec les Sciences de l'Homme et de la Société (psychologie,
ergonomie cognitive et sciences du langage) et avec le secteur Santé
et Biologie, ce caractère pluridisciplinaire loin d'être
un désavantage constitue, en effet, comme le notent les évaluateurs,
l'une des grandes richesses et particularités de ce programme.
(b) les difficultés ou faiblesses existantes
Ce serait, il faut l'avouer, une erreur d'omettre de noter dans un
tel rapport certaines difficultés ou faiblesses qu'il convient
à l'avenir de surmonter ou dépasser. Parmi les plus importantes
(deux difficultés figurent dans le rapport d'évaluation
du programme) il convient de citer :
un certain "mal être" au sein de l'Institut
dû à une perception pas toujours positive de la pluridisciplinarité
développée au sein de nos projets. Sans aller jusqu'à
affirmer qu'au sein de l'Institut, seule la pluridisciplinarité
mathématiques-informatique possède de véritables
lettres de noblesse, on doit néanmoins s'interroger sur les raisons
qui conduisent à ce "mal être", nettement perceptible lors
du dernier séminaire d'évaluation : problème de
recrutement au sein des projets, problème de perception interne
de recherches menées dans un cadre pluridisciplinaire particulier
(avec SHS et SDV), problèmes de visibilité des résultats
qui nécessitent de longs traitements sur d'énormes quantités
d'informations et dont l'évaluation objective n'est pas toujours
facile à réaliser, etc.
une certaine dispersion et en tout cas un
manque de concertation stratégique entre projets,
assez bien analysés en pages 3 et 4 du rapport d'évaluation
de ce programme. A ce propos, il convient de s'interroger sur l'utilisation
du vocable " projet " au sein de l'Institut comme identifiant de ce
qui correspond de fait à des équipes de recherche. Cela
ne nuit-il pas à l'apparition de véritables projets
finalisés et limités dans le temps qu'il conviendrait
de faire émerger par la mise en synergie de chercheurs issus
de diverses équipes ? Mais peut-être convient-il de chercher
ailleurs, dans l'histoire de la constitution de ce programme et de
chacun de ses projets, les raisons qui conduisent à " cette
impression d'une simple juxtaposition de projets faiblement coordonnés
entre eux " (cf. rapport d'évaluation).
un manque flagrant dans le domaine du tutorial
intelligent ou de la formation assistée par ordinateur.
A un moment où tous, les politiques certes, mais aussi et surtout
les professionnels, s'accordent sur l'importance que doivent prendre
à l'avenir les nouvelles technologies de l'information dans
l'éducation et la formation continue, il convient de s'interroger
sur cette absence au sein de l'institut, d'autant qu'hélas,
elle semble n'être que le reflet assez fidèle de ce qui
se passe plus globalement dans la recherche universitaire française.
un potentiel insuffisant dans le domaine
de l'informatique-linguistique et de l'ingénierie des langues
à un moment où le développement du web, par exemple,
donne à l'écrit une place centrale qui nécessite
des outils appropriés d'accès et d'analyse de contenus
linguistiques.
(c) des défis à relever pour l'avenir
Les premiers consistent sans doute à dépasser les difficultés
et combler les faiblesses notées ci-dessus. Mais au delà,
et en s'appuyant sur les atouts qui sont les nôtres, il convient
de répondre pour l'avenir à divers défis dont les
deux principaux sont :
trouver de nouveaux outils et méthodes de modélisation,
en particulier non mathématiques, que notre domaine est susceptible
d'apporter pour aider à mieux comprendre les domaines que nous
abordons et dont la caractéristique première est d'être
peu ou faiblement structurés (ou pour le moins à structure
non explicite aujourd'hui !) - cf. exemple 3 du paragraphe 2.2. ;
répondre aux problèmes cruciaux de gestion et d'exploitation
des informations et connaissances au sein de l'entreprise (intranet)
et plus généralement à travers le développement
du Web et des techniques de télécommunications. En d'autres
termes, comme le notait le rapport d'évaluation (p. 14) asseoir
ce nouveau concept de systèmes
de gestion de connaissances, qui tend à supplanter,
dans les entreprises et organisations, en général, le
célèbre système d'information. Il y a
là un défi formidable pour notre domaine, et en particulier
pour le développement de techniques d'analyse et de compréhension
de textes, de discours et de documents multimédia, d'une part,
de gestion simultanée de connaissances formelles, textuelles,
graphiques et visuelles, d'autre part.
En guise de conclusion
Si, dans ce court rapport de prospective, les rédacteurs ont,
d'un commun accord, décidé de traiter dans des parties
séparées les aspects Bases de données et
Bases de connaissances et systèmes cognitifs c'est
parce que cette séparation correspond à une réalité
tant au sein de l'institut, que d'ailleurs dans de nombreux autres organismes
de recherche. Mais il est clair que ces problématiques se rejoignent
et qu'un grand défi pour l'avenir est sans aucun doute de mieux
établir les liens entre ces deux parties du programme. Par exemple,
nous avons vu qu'un des défis des bases de données est
la gestion de données semi-structurées, c'est-à-dire
plus irrégulières que dans les systèmes traditionnels.
Les bases de connaissances et systèmes cognitifs, quant à
eux, abordent des domaines peu structurés par nature et développent
tout un travail de modélisation pour mieux comprendre et structurer
ces domaines. La gestion d'information reste un tout avec des données
qui s'enrichissent, se structurent. Il faut donc oeuvrer pour que, dans
les quatre années à venir, bases de données, bases
de connaissances et systèmes cognitifs sachent ensemble faire
progresser les méthodes et techniques de saisie, gestion, analyse
et interprétation, modélisation et exploitation des contenus
informatifs et connaissances véhiculés sous le concept
de société de l'information dans un programme
plus unifié et plus coopératif.
|