|
|
Trois projets de l'INRIA sont entièrement consacrés à la bio-informatique. A eux trois, ils réunissent 60 chercheurs et ingénieurs et 27 doctorants.
HELIX : Développer
les outils de la génomique et de la protéomique
Le projet HELIX constitue la plus importante équipe de recherche
française en matière de bio-informatique : une cinquantaine
de chercheurs. Le projet est par ailleurs exemplaire du fait qu'il associe
à part égale biologistes et informaticiens : certains à
Grenoble et d'autres à Lyon. Ces derniers, biométriciens,
sont de véritables pionniers de la bio-informatique et travaillent
dans ce domaine depuis plus de 20 ans. Ils font partie d'une unité
mixte de recherche de l'Université Claude Bernard de Lyon et du CNRS.
Un véritable pôle de référence, est par ailleurs
en train de voir le jour réunissant ces chercheurs de Lyon et Grenoble
et l'Institut Suisse de Bio-informatique de Genève (Suisse) (Voir
Fiche 4).
L'objectif général du projet HELIX est de concevoir et de développer des algorithmes et des systèmes informatiques pour l'analyse des données génomiques et protéomiques en privilégiant une approche comparative, qui vise à exploiter les connaissances sur une ou plusieurs espèces pour compléter les connaissances sur une autre espèce plus ou moins apparentée.
Ses chercheurs développent des techniques algorithmiques adaptées aux nouveaux outils de la protéomique comme la spectrométrie de masse qui permet désormais d'identifier à haut débit les protéines codées par un génome. L'équipe d'HELIX a mis au point une méthode originale avec le CEA Grenoble pour faire des analyses automatiques de ces spectres. Elle consiste à travailler sur des petits morceaux de protéines, dont le texte de certaines courtes séquences peut permettre de remonter à l'information génétique correspondante : à quels fragments de gènes correspondent les fragments de protéines analysées ? Cela permet en particulier de révéler des gènes qui n'auraient pas été identifiés autrement. Les chercheurs ont développé des logiciels pour ce type d'analyse. Cela a dores et déjà permis d'obtenir des résultats biologiques nouveaux.
Un autre pan important des recherches menées dans HELIX concerne la modélisation et la simulation des réseaux d'interactions entre les gènes et leurs produits. L'équipe a développé un outil de simulation baptisé GNA (Genetic Network Analyzer) qui est déjà diffusé auprès d'une soixantaine de laboratoires dans le monde. Il est considéré comme un des meilleurs outils actuels et permet de simuler des réseaux réels faisant intervenir une vingtaine de gènes, état de l'art actuel. L'équipe l'a par exemple mis à profit pour simuler le phénomène de sporulation (état de protection face à une agression) d'une bactérie. Des travaux sur la modélisation de réseaux d'interactions sont par ailleurs menés dans le cadre de l'action de recherche coopérative GDyn " Analyse dynamique de réseaux de régulation génique " (voir Fiche 5).
Le projet HELIX est aussi un des principaux acteurs du consortium français
de bio-informatique Genostar (Voir Fiche 6)
créé en décembre 1999 pour concevoir et développer
un environnement informatique de génomique exploratoire. L'outil
développé commence à fournir des résultats intéressants
et inédits aux laboratoires qui l'utilisent.
Par ailleurs, l'équipe HELIX a conçu un environnement didactique
destiné à aider les biologistes à maîtriser les
outils informatiques et les algorithmes fondamentaux qu'ils sont désormais
amenés à utiliser.
Contact :
François Rechenmann
(INRIA Rhône-Alpes)
Tél : 04 76 61 53 65
SYMBIOSE : Rechercher
les motifs
Ce projet initié début 2003 affiche clairement sa volonté
de rapprocher informaticiens et biologistes. Son ambition est de donner
aux biologistes les moyens d'extraire tel ou tel motif - une séquence
d'ADN, d'ARN ou de protéine - de la quantité
de données sans cesse croissante à laquelle ils ont accès.
Certains laboratoires ne travaillent que sur des protéines spécifiques,
d'autres sur certains gènes, d'autres encore cherchent à
identifier les interactions entre ces molécules.
Les chercheurs de SYMBIOSE sont partis du principe que l'on pouvait caractériser un langage génomique. Les séquences du génome (ADN, ARN ), à l'image des mots d'un texte sont contraints à certaines règles de grammaire, propres à leur langage. Il en va de même des signatures de familles de protéines, motifs spécifiques du génome qui définissent potentiellement des fonctions comparables. Les chercheurs ont choisi une analyse syntaxique du génome pour modéliser ce langage et permettre ensuite des recherches automatiques. Très peu d'équipes au monde ont cette démarche pour extraire des motifs du génome.
Un autre défi qui apparaît de plus en plus important est celui de la puissance de calcul dont ont besoin les biologistes. Les données (séquences mais aussi informations textuelles) affluent à un rythme soutenu. Désormais, le volume des banques de données publiques double presque tous les ans et celles-ci se multiplient - il en existe déjà plusieurs centaines. Les notions de calcul, jusque là peu développés en biologie deviennent vitales. Pour faire face à ces volumes de données et à la complexité des algorithmes mis en jeu, l'équipe met en oeuvre des solutions informatiques parallèles comme les grilles de calcul. Il s'agit de faire coopérer un ensemble d'ordinateurs répartis géographiquement et connectés par Internet. L'utilisateur peut ainsi lancer un calcul complexe sur plusieurs ordinateurs à la fois en faisant intervenir plusieurs sources de données, le tout de façon transparente et sécurisée. Ces recherches sont menées dans le cadre du projet national Genogrid.
Face au volume croissant de données, les chercheurs de SYMBIOSE développent aussi des machines parallèles spécialisées pour analyser des séquences du génome. Cette activité routinière dans les laboratoires de biologie permet par exemple de comparer une nouvelle séquence à l'ensemble des séquences déjà connues. Les premiers prototypes sortiront à la fin de l'année.
L'équipe a par ailleurs réalisé une plate-forme de recherche de motifs à la disposition des biologistes (voir Fiche 4) . De nouvelles protéines de la famille des béta-défensines, une famille importante pour son implication dans le système de défense immunitaire, ont ainsi été découvertes.
Contact :
Jacques Nicolas (INRIA Rennes
/ Irisa)
Tél : 02 99 84 73 12
MODBIO : Modéliser
les phénomènes biologiques
L'objectif de ce projet du Loria est de développer des modèles
informatiques pour la biologie moléculaire et cellulaire. L'équipe
met en oeuvre deux approches informatiques - la programmation par contraintes
et l'apprentissage statistique - pour étudier les structures
macromoléculaires (telles que celles des protéines ou
de l'ARN) et comprendre leurs fonctions dans la cellule. Il s'agit là
de mettre au profit de la biologie des années d'expériences
sur ces approches informatiques et algorithmiques étudiées
jusque là dans des tout autres domaines.
L'INRIA est ainsi un des premiers à avoir fait appel à des techniques d'optimisation discrète et de programmation par contraintes pour déterminer la structure tridimensionnelle de macromolécules en radiocristallographie, étape clé pour appréhender leurs fonctions. La programmation par contraintes permet de raisonner avec des informations partielles (contraintes) sur la structure à déterminer. Dans le cas de MODBIO, il s'agit de calculer une enveloppe macromoléculaire à partir de données expérimentales incomplètes de cristallographie.
Cette même technique de programmation par contraintes est utilisée par l'équipe au sein de l'action de recherche coopérative CPBIO " Calculs de processus et biologie des réseaux moléculaires " (voir Fiche 5) pour modéliser le processus d'épissage alternatif du virus de sida. L'épissage est un phénomène biologique fondamental qui suscite encore beaucoup de questions : il détermine la nature des différentes protéines produites par un même gène. En effet, on sait maintenant qu'au cours des différentes étapes qui permettent le passage de l'ADN vers les protéines, un gène n'est pas transcrit en totalité. En gardant certains éléments (les exons) et en en éliminant d'autres (les introns), le gène produit une protéine. Mais d'autres conditions cellulaires produiront une autre protéine.
Les chercheurs de MODBIO étudient aussi une autre voie pour déterminer la structure tridimensionnelle des protéines : la prédiction de leur structure secondaire à partir de la séquence, à savoir l'organisation spatiale des acides aminés qui les constituent (en feuillet, en hélice), sortes de sous-structures préalables à la structure tridimensionnelle. Pour cela, ils utilisent l'apprentissage statistique (classification d'objets inconnus après une phase d'apprentissage). Ils ont développé un logiciel (M-SVM) en libre accès depuis un an.
Contact :
Alexander Bockmayr (INRIA
Lorraine / Loria)
Tél : 03 83 59 30 41
Les termes en italique sont définis dans le glossaire