logo inria

Information de meme niveau :

|sommaire dossier |

-----------------------
La bio-informatique à l'INRIA
Septembre 2003
-----------------------

La bio-informatique à l'INRIA

Analyser le génome
Intégrer les nouvelles sources de données
Identifier la fonction des gènes
Modéliser la machinerie cellulaire
Confirmer les prédictions sur la paillasse

Analyser le génome
On parle beaucoup ici et là des développements concernant le post-génome. Pourtant, la majeure partie des activités actuelles en bio-informatique consiste, encore et toujours, à localiser des séquences du génome (gènes, signaux de régulation...). De fait, même si les méthodes d'identification des gènes marchent de mieux en mieux, il reste encore des progrès à faire pour les génomes eucaryotes, en particulier humain où les gènes sont morcelés et séparés par de longues séquences.
La plupart des projets de l'INRIA qui traitent de bio-informatique mènent des recherches d'analyse de séquences, en particulier HELIX à Lyon et Grenoble et SYMBIOSE à Rennes qui y consacrent environ un tiers de leur activité. D'autres équipes, comme ADAGE et ORPAILLEUR à Nancy, ALGO à Rocquencourt développent ces aspects parmi d'autres applications. Leurs chercheurs ont par exemple mis au point des logiciels pour identifier les répétitions de fragments du génome (ADAGE et ORPAILLEUR) et les régions de similarités entre génomes (ADAGE) et pour identifier les signaux de régulation (ALGO et ADAGE), séquences spécifiques fondamentales dans la traduction d'un gène en protéine.

Intégrer les nouvelles sources de données
A ces données sur les gènes, s'ajoutent les données dites post-génomiques, sur l'ARN, sur les protéines (issues des analyses des transcriptomes, des protéomes). Des équipements de plus en plus performants permettent désormais de recueillir ces informations à haut débit. Les banques de données se comptent désormais par centaines. Mais surtout leur structure, leur format et même parfois leur sémantique ne correspondent pas toujours aux mêmes réalités. Ainsi, même le terme "gène" peut recouvrir des significations variables d'une banque à l'autre. Autant de difficultés de gestion et d'interprétation qui ralentissent considérablement les recherches. L'interopérabilité de ces données est devenu le véritable casse-tête du moment, préliminaire à toute analyse scientifique.

Organiser, structurer les données et les connaissances reste donc une activité incontournable en bio-informatique. Le projet ACACIA à Sophia-Antipolis mène de nombreuses recherches dans ce contexte. Ses chercheurs développent par exemple des techniques d'annotation semi-automatiques des expériences, en particulier sur les puces à ADN pour améliorer la gestion des connaissances sur ces expériences. A Nancy, les chercheurs du projet LANGUE ET DIALOGUE ont développé un logiciel destiné à la collecte de données dans des sources hétérogènes, cas des multiples bases de données en génomique et post-génomique.
D'autre part, ces quantités exponentielles de données posent de plus en plus un problème de puissance de calcul. Les chercheurs de SYMBIOSE à Rennes sont très actifs à ce sujet : ils développent des solutions informatiques comme des grilles de calcul et des machines parallèles spécialisées.

Identifier la fonction des gènes
C'est véritablement la base de la compréhension du fonctionnement de la cellule : ce qu'on appelle la génomique fonctionnelle, associer un gène aux protéines dans lesquelles il est susceptible de se traduire et identifier le rôle de ces protéines (Voir Fonctions d'une protéine). C'est le thème principal des recherches du projet MODBIO à Nancy. Elles font appel à des techniques de programmation développés par ailleurs à l'INRIA pour étudier la structure des macromolécules, les mécanismes en jeu et comprendre ainsi leurs fonctions.
Les chercheurs d'HELIX à Lyon et Grenoble développent, quant à eux, des algorithmes pour identifier les gènes associés aux protéines révélées par la spectrométrie de masse. À Rennes (projet SYMBIOSE), des programmes d'apprentissage automatique sont développés pour identifier les motifs caractéristiques d'une fonction dans les séquences.

Modéliser la machinerie cellulaire
On peut comparer la cellule à une machinerie complexe dont les différentes pièces sont les gènes, les protéines, l'ARN... pièces qui interagissent sans cesse pour assurer le bon fonctionnement global. L'objectif le plus ambitieux - à long terme - de la bio-informatique est bel et bien de construire des modèles de plus en plus globaux sur la base des données post-génomiques. Les chercheurs espèrent ainsi mieux comprendre le fonctionnement dynamique de la cellule, être capable de modéliser et simuler ces réseaux d'interactions. Certains projets internationaux d'ampleur visent même à modéliser une cellule toute entière.
Plusieurs projets de l'INRIA ont choisi des démarches spécifiques pour modéliser la dynamique cellulaire. Les projets CONTRAINTES de Rocquencourt et MODBIO de Nancy sont réunis au sein d'une action de recherche coopérative baptisée CPBIO. Les chercheurs y comparent différentes solutions informatiques (langages et modèles de programmation) sur des processus biologiques plus ou moins bien connus. Les chercheurs d'HELIX ont, quant à eux, développé une méthode de simulation qualitative de réseaux d'interactions géniques. Celle-ci est désormais intégrée à l'action de recherche coopérative GDyn qui réunit entre autres les projets COMORE de Sophia-Antipolis et SOSSO de Rocquencourt et introduit les méthodes et les outils de l'automatique en génomique.

Confirmer les prédictions sur la paillasse
Les biologistes auront toujours le dernier mot. Dans tous les cas, les bio-informaticiens ne leur proposent que des prédictions. Sans une vérification expérimentale, aucune hypothèse ne peut être validée. Le rôle des bio-informaticiens est avant tout de limiter l'ensemble des possibles à examiner. La coopération entre biologistes et informaticiens est donc fondamentale à chaque étape des recherches. Pourtant il reste beaucoup à faire pour qu'ils travaillent réellement ensemble, au delà de quelques rares collaborations exemplaires. Certaines données sont encore largement sous-exploitées.

Les termes en italique sont définis dans le glossaire

 

bas de page
début de la pagepage d'accueil du site
© INRIA - mis à jour le 14/10/2003 - webmaster@inria.fr