|
|
Analyser le génome
Intégrer les nouvelles sources de données
Identifier la fonction des gènes
Modéliser la machinerie cellulaire
Confirmer les prédictions sur la paillasse
Analyser le génome
On parle beaucoup ici et là des développements concernant
le post-génome. Pourtant, la majeure partie des activités
actuelles en bio-informatique consiste, encore et toujours, à localiser
des séquences du génome (gènes, signaux de
régulation...). De fait, même si les méthodes
d'identification des gènes marchent de mieux en mieux, il reste encore
des progrès à faire pour les génomes eucaryotes,
en particulier humain où les gènes sont morcelés et
séparés par de longues séquences.
La plupart des projets de l'INRIA qui traitent de bio-informatique mènent
des recherches d'analyse de séquences, en particulier HELIX
à Lyon et Grenoble et SYMBIOSE
à Rennes qui y consacrent environ un tiers de leur activité.
D'autres équipes, comme ADAGE
et ORPAILLEUR à
Nancy, ALGO à Rocquencourt
développent ces aspects parmi d'autres applications. Leurs chercheurs
ont par exemple mis au point des logiciels pour identifier les répétitions
de fragments du génome (ADAGE et ORPAILLEUR) et les régions
de similarités entre génomes (ADAGE) et pour identifier les
signaux de régulation (ALGO et ADAGE), séquences spécifiques
fondamentales dans la traduction d'un gène en protéine.
Intégrer les nouvelles sources de données
A ces données sur les gènes, s'ajoutent les données
dites post-génomiques, sur l'ARN, sur les protéines
(issues des analyses des transcriptomes, des protéomes). Des
équipements de plus en plus performants permettent désormais
de recueillir ces informations à haut débit. Les banques de
données se comptent désormais par centaines. Mais surtout
leur structure, leur format et même parfois leur sémantique
ne correspondent pas toujours aux mêmes réalités. Ainsi,
même le terme "gène" peut recouvrir des significations
variables d'une banque à l'autre. Autant de difficultés de
gestion et d'interprétation qui ralentissent considérablement
les recherches. L'interopérabilité de ces données
est devenu le véritable casse-tête du moment, préliminaire
à toute analyse scientifique.
Organiser, structurer les données et les connaissances reste
donc une activité incontournable en bio-informatique. Le projet ACACIA
à Sophia-Antipolis mène de nombreuses recherches dans ce contexte.
Ses chercheurs développent par exemple des techniques d'annotation
semi-automatiques des expériences, en particulier sur les puces
à ADN pour améliorer la gestion des connaissances sur
ces expériences. A Nancy, les chercheurs du projet
LANGUE ET DIALOGUE ont développé un logiciel destiné
à la collecte de données dans des sources hétérogènes,
cas des multiples bases de données en génomique et post-génomique.
D'autre part, ces quantités exponentielles de données posent
de plus en plus un problème de puissance de calcul. Les chercheurs
de SYMBIOSE à
Rennes sont très actifs à ce sujet : ils développent
des solutions informatiques comme des grilles de calcul et des machines
parallèles spécialisées.
Identifier la fonction des gènes
C'est véritablement la base de la compréhension du fonctionnement
de la cellule : ce qu'on appelle la génomique fonctionnelle,
associer un gène aux protéines dans lesquelles il est susceptible
de se traduire et identifier le rôle de ces protéines (Voir
Fonctions d'une protéine). C'est le thème principal
des recherches du projet MODBIO
à Nancy. Elles font appel à des techniques de programmation
développés par ailleurs à l'INRIA pour étudier
la structure des macromolécules, les mécanismes en
jeu et comprendre ainsi leurs fonctions.
Les chercheurs d'HELIX à Lyon et Grenoble développent, quant
à eux, des algorithmes pour identifier les gènes associés
aux protéines révélées par la spectrométrie
de masse. À Rennes (projet SYMBIOSE), des programmes d'apprentissage
automatique sont développés pour identifier les motifs caractéristiques
d'une fonction dans les séquences.
Modéliser la machinerie cellulaire
On peut comparer la cellule à une machinerie complexe dont les différentes
pièces sont les gènes, les protéines, l'ARN... pièces
qui interagissent sans cesse pour assurer le bon fonctionnement global.
L'objectif le plus ambitieux - à long terme - de la bio-informatique
est bel et bien de construire des modèles de plus en plus globaux
sur la base des données post-génomiques. Les chercheurs espèrent
ainsi mieux comprendre le fonctionnement dynamique de la cellule,
être capable de modéliser et simuler ces réseaux
d'interactions. Certains projets internationaux d'ampleur visent
même à modéliser une cellule toute entière.
Plusieurs projets de l'INRIA ont choisi des démarches spécifiques
pour modéliser la dynamique cellulaire. Les projets CONTRAINTES
de Rocquencourt et MODBIO de Nancy sont réunis au sein d'une action
de recherche coopérative baptisée CPBIO. Les chercheurs y
comparent différentes solutions informatiques (langages et modèles
de programmation) sur des processus biologiques plus ou moins bien connus.
Les chercheurs d'HELIX ont, quant à eux, développé
une méthode de simulation qualitative de réseaux d'interactions
géniques. Celle-ci est désormais intégrée à
l'action de recherche coopérative GDyn qui réunit entre autres
les projets COMORE
de Sophia-Antipolis et SOSSO
de Rocquencourt et introduit les méthodes et les outils de l'automatique
en génomique.
Confirmer les prédictions sur la paillasse
Les biologistes auront toujours le dernier mot. Dans tous les cas, les bio-informaticiens
ne leur proposent que des prédictions. Sans une vérification
expérimentale, aucune hypothèse ne peut être validée.
Le rôle des bio-informaticiens est avant tout de limiter l'ensemble
des possibles à examiner. La coopération entre biologistes
et informaticiens est donc fondamentale à chaque étape des
recherches. Pourtant il reste beaucoup à faire pour qu'ils travaillent
réellement ensemble, au delà de quelques rares collaborations
exemplaires. Certaines données sont encore largement sous-exploitées.
Les termes en italique sont définis dans le glossaire