|
|
Les équipements actuels (puces à ADN, spectromètres de masse) permettent désormais au biologiste d'extraire une grande quantité d'informations de leurs expériences. La difficulté désormais est de les analyser : cela nécessite d'exploiter des centaines de banques de données, des publications, aux formats différents, avec des sémantiques variables, des documentations insuffisantes... Ces sujets désormais fondamentaux requièrent beaucoup d'analyse informatique. Ils sont étudiés à l'INRIA au sein des projets ACACIA à Sophia-Antipolis et LANGUE ET DIALOGUE à Nancy et dans l'équipe ORPAILLEUR à Nancy.
ACACIA : Valoriser la mémoire d'expérience
Les chercheurs d'ACACIA travaillent sur la gestion des connaissances et la mémoire d'entreprise : un sujet crucial pour capitaliser et valoriser les mémoires d'expériences des biologistes.
C'est le cas du projet MEAT (Mémoire d'expérience sur l'analyse du transcriptome) en collaboration avec l'Institut de pharmacologie moléculaire et cellulaire (laboratoire CNRS à Sophia-Antipolis) et l'industriel Bayer. Le projet concerne les résultats d'expériences menées avec les puces à ADN qui permettent de détecter l'expression de milliers de gènes dans un seul échantillon biologique.
A partir du vocabulaire conceptuel utilisé par les biologistes pour annoter leurs données (ontologie) et en utilisant des outils de traitement linguistique des différentes sources d'information textuelles (publications, etc.), les chercheurs d'ACACIA développent des méthodes et des algorithmes pour enrichir les ontologies actuelles et pour permettre ensuite l'annotation semi-automatique des expériences sur les biopuces.
L'équipe ACACIA a développé en 2000 un moteur de recherche sémantique général baptisé CORESE capable de faire de la recherche intelligente d'information. Il repose sur une ontologie et des annotations sémantiques. Appliqué à la biologie, CORESE permet de mener de telles recherches en se basant sur les ontologies du domaine biomédical (telles que la Gene Ontology).
Contact :
Rose Dieng-Kuntz (INRIA Sophia
Antipolis)
Tél : 04 92 38 78 10
LANGUE ET DIALOGUE : Modéliser les scénarios de collecte de données
Dans le cadre de ce projet qui s'intéresse au "dialogue homme-machine", des chercheurs travaillent sur la recherche d'informations dans de multiples bases de données génomiques. Ils s'intéressent en particulier à des scénarios reproduisant la succession d'interrogations de bases de données que mène un biologiste pour chercher une information comme par exemple la localisation précise d'un gène dans le génome et l'identification des gènes les plus proches ou la recherche de la fonction de gènes. Ce genre de requête prend beaucoup de temps et aboutit souvent à beaucoup d'informations hors sujet à trier.
Les chercheurs ont adapté leur logiciel XMAP dédié à cartographie des gènes et leur mise en relation avec des maladies orphelines (rares) et ont développé un logiciel générique baptisé XCOLLECT et destiné à la collecte de données dans des sources hétérogènes. Cela permet de collecter des données selon n'importe quel type de scénario de recherche d'information et pour n'importe quel type de question biologique. Le logiciel a été testé selon trois scénarios différents. Autre intérêt : il permet une veille informatique. Il suffit de " rejouer le scénario " pour bénéficier des nouvelles mises à jour de gènes. L'équipe s'intéresse désormais au problème amont et réfléchit à l'architecture d'un annuaire des sources d'informations et à leurs moyens d'accès.
Ces recherches sont menées dans le cadre du programme de recherche scientifique et technologique lorrain " Bio-informatique et applications à la génomique " (Voir Fiche 4).
Contacts :
Marie-Dominique Devignes
et Malika Smaïl (INRIA
Lorraine / Loria)
Tél : 03 83 59 20 65
Serveur bio-informatique du Loria
:
Page personnelle de Marie-Dominique
Devignes
ORPAILLEUR : Savoir fouiller dans les données
Cette équipe du Loria développe des techniques d'extraction de connaissances à partir de bases de données. Ces travaux sont particulièrement adaptés aux problèmes des biologistes. Ils font l'objet de deux thèses, l'une financée par l'Inserm de Nancy et la région et l'autre par l'Inra et la région. Cette dernière, menée avec le Laboratoire de génétique et microbiologie de l'Inra est destinée à étudier les répétitions de séquences dans des génomes de bactéries Streptomyces. Jusqu'à 10% du matériel génétique des micro-organismes peut ainsi être constitué de répétitions, autant de témoins possibles de tel ou tel symptôme ou instabilité génétique. Les méthodes utilisées sont des techniques probabilistes qui font appel à des modèles de Markov caché (techniques classiques en reconnaissance de forme)
Dans le cadre de l'autre thèse, il s'agit d'exploiter des données biologiques et génétiques (banques d'échantillons sanguins et d'ADN de plus de 1000 familles suivies depuis 10 ans) pour évaluer la part des facteurs génétiques et d'environnement dans le risque cardio-vasculaire. Des méthodes symboliques de fouille de données sont utilisées, et en particulier, la recherche de motifs fréquents et l'extraction de règles d'association.
Contact :
Amedeo Napoli (INRIA Lorraine
/ Loria)
Tél : 03 83 59 20 68
Les termes en italique sont définis dans le glossaire