|
| sommaire | |
De nombreuses équipes à travers le monde travaillent actuellement sur les génomes des différents organismes, sur les étapes qui constituent la chaîne d'expression de l'ADN et les protéines qui en sont l'expression finale.
Si le séquençage est désormais une activité
quasi-industrielle, l'identification des gènes dans les séquences,
la compréhension de ce qui est en jeu pour telle ou telle fonction
biologique, l'évolution et le fonctionnement du génome constituent
de grands enjeux scientifiques pour la biologie comme pour les sciences de
l'information. Alors qu'auparavant, les publications de données se
faisaient dans des revues, elles sont désormais électroniques
et il se constitue à travers le monde des banques de données,
certaines publiques, d'autres privées, où sont recueillis les
efforts de séquençage des différentes équipes.
Face à ce stock, l'informatique, la statistique et les mathématiques
sont indispensables pour :
Trois équipes développent des algorithmes d'analyse de la séquence :
HELIX, conçoit des outils informatiques et des environnements de génomique exploratoire, et MODBIO travaille sur la détermination de structures de macromolécules biologiques et leur modélisation pour la simulation.
GENOSTAR a pour objectif de fournir aux biologistes un environnement informatique intégré.
Un grand pourcentage des séquences des génomes sont des séquences
répétées des mêmes successions de nucléotides
(codés A, C, T, G). De quelques lettres à des centaines, le
génome duplique l'information. Pourquoi ? L'équipe ADAGE travaille
dans ce domaine, appliquant son savoir-faire en algorithmique combinatoire
pour recenser ces répétitions à travers les séquences
disponibles et les analyser.
Les répétitions correspondent à différents phénomènes. Certaines, les micro-satellites, de très courts fragments de quelques nucléotides, sont répétées des dizaines ou des centaines de fois. Il se trouve que ce type de répétitions est impliqué dans certaines maladies génétiques graves (maladie de Huntington par exemple). Par ailleurs, ces répétitions sont utilisées comme marqueurs génétiques pour identifier le profil génétique d'un individu, d'où leur utilisation par la médecine légale. A l'opposé des micro-satellites, il existe dans le génome des séries gigantesques où des milliers, voire des dizaines de milliers de "lettres" sont répétées, parfois en tandem. L'identification des répétitions dans un génome donné est essentielle.
C'est pour cette raison que l'équipe ADAGE recherche des algorithmes
à la fois rapides, efficaces et exhaustifs. Le logiciel MREPS, mis
au point par les chercheurs d'ADAGE, permet de trouver toutes les répétitions
en tandem présentes dans un génome entier en quelques secondes.
Un autre domaine d'application des recherches algorithmiques d'ADAGE est
la recherche de motifs responsables de l'activation de certains gènes,
les signaux de régulation. ADAGE travaille sur le génome d'une
bactérie, avec des biologistes du Laboratoire de génétique
et microbiologie de l'Université Henri Poincaré à Nancy,
pour identifier ces signaux. Cette bactérie de la famille des Streptomyces
est utilisée dans la pharmacie pour la production d'antibiotiques et
dans l'agro-alimentaire.
ADAGE travaille également avec des biologistes de l'IGBMC, Institut de génétique et biologie moléculaire et cellulaire à Strasbourg, sur les séquences des protéines qui sont plus courtes que celles du génome mais qui sont composées de vingt éléments. ADAGE développe un modèle mathématique pour améliorer Ballast, le logiciel d'analyse des séquences de protéines développé par l'IGBMC.
L'algorithmique combinatoire est le domaine de prédilection de l'équipe ADAGE, qui réunit cinq chercheurs et enseignants-chercheurs permanents (INRIA, CNRS, Université de Nancy 1), tous informaticiens. Leurs travaux portent sur le développement et l'analyse d'algorithmes sur les structures discrètes.
Gregory.Kucherov@inria.fr
03 83 59 30 21
INRIA Lorraine - LORIA
Les protéines peuvent être regroupées en familles, correspondant
chacune à des fonctions particulières dans l'organisme. On cherche
actuellement à caractériser ces familles au niveau de leur séquence
: à trouver leurs "signatures".
Il y a deux grands intérêts et applications à ce type
de recherche :
Ces travaux nécessitent des modèles complexes dans la mesure
où les structures spatiales impliquées le sont également,
faisant intervenir en particulier des connexions relativement distantes.
L'approche de SYMBIOSE est combinatoire et linguistique : elle part du principe
que les séquences d'une même famille partagent une sorte de langage
commun , que l'on cherche à caractériser.
SYMBIOSE travaille notamment en collaboration avec le laboratoire - Canaux
et récepteurs membranaires - une unité mixte de recherche CNRS
- Université de Rennes travaillant sur les séquences génétiques
et la structure des canaux membranaires. Il s'agit de protéines situées
dans la membrane des cellules, qui servent à faire passer d'autres
molécules : de l'eau, du glycérol, etc.
L'équipe SYMBIOSE apporte sa collaboration à ces travaux en
explorant les banques de données publiques à la recherche de
séquences génétiques se rapprochant de celles étudiées
à Rennes. L'objectif est d'élargir le champ de recherche et
de doter le laboratoire d'une quantité beaucoup plus grande d'informations
pertinentes sur ces canaux. Cette information permet de construire des signatures
distinguant ces protéines d'autres protéines voisines comme
les transporteurs ABC.
Grâce à cet appui, les biologistes ont déjà obtenu
des résultats : ils sont notamment parvenu, en agissant sur le génome,
à transformer la fonction d'un canal membranaire à eau (aquaporine)
en canal à glycérol.
Or, ces fonctions sont importantes pour comprendre de nombreuses maladies
génétiques, souvent liées à un transfert de l'eau
qui est déréglé.
SYMBIOSE cherche à élargir ses recherches aux séquences
et aux fonctions d'autres molécules, notamment les prions.
SYMBIOSE travaille également sur la comparaison intensive de séquences via des architectures de machines parallèles et, comme HELIX mais à une échelle moindre, à la modélisation des interactions géniques impliquées dans une maladie ou un métabolisme.
SYMBIOSE est un projet de bio-informatique en cours de création, issu
d'AIDA, qui affiche dans son nom sa volonté de rapprocher informaticiens
et biologistes. Il s'intéresse particulièrement à l'analyse
linguistique de séquences et à l'analyse de données du
post-génome, les étapes dans lesquelles le génome s'exprime
(transcriptome, protéome).
Ces travaux aident les biologistes dans la découverte des fonctions
des gènes et des protéines en vue du diagnostic et de la compréhension
des facteurs pathologiques.
L'équipe comprend une dizaine de chercheurs et enseignants-chercheurs
permanents (INRIA, CNRS, Université de Rennes 1) qu'assistent deux
ingénieurs experts et quatre étudiants.
Les recherches interviennent dans les domaines :
L'équipe est fortement impliquée dans la Génopole Ouest et a été à l'origine d'un DEA Génomique et informatique à l'Université de Rennes, dont la première promotion a été diplômée en 2001.
L'équipe travaille avec de nombreux laboratoires Inserm et Inra de
Rennes impliqués dans la génomique et la post-génomique.
En particulier, SYMBIOSE participe au programme Inra national Agena (étude
du transcriptome d'espèces d'intérêt agronomique) et à
un projet européen avec l'Inra Scribe ( étude des gènes
impliqués dans la régulation du stress chez la truite).
Jacques.Nicolas@inria.fr
02 99 84 73 12
INRIA Rennes - IRISA
Dans le codage universel du vivant, chacun des quatre acides nucléiques
de base qui constituent l'ADN est représenté par une lettre
: A,C,T,G pour l'ADN et A,C,U,G pour l'ARN. Ainsi, le génome se lit
comme une suite de lettres, un texte linéaire, qu'ALGO analyse à
la recherche de "mots" qui constituent des signaux biologiques.
La spécialité de l'équipe est le développement
d'algorithmes rapides et efficaces pour rechercher ces mots. Il s'agit d'une
recherche mathématique qui s'applique à trouver la façon
opérationnelle la moins coûteuse et la plus rentable d'effectuer
ces recherches sur un nombre important de données. ALGO développe
ce type d'outils depuis longtemps pour d'autres applications.
L'une des approches possibles sur le génome, étant donné ce grand nombre de données, est de rechercher par des méthodes algorithmiques les mots qui apparaissent plus souvent ou moins souvent, que ce que donnerait un système complètement aléatoire. On évalue ensuite l'écart statistique par des formules mathématiques. Enfin, on cherche, avec les biologistes, à trouver un sens aux éventuelles sur-représentations ou sous-représentations.
Aujourd'hui, l'équipe applique ses recherches à l'identification
de signaux de régulation dans le génome. Ces signaux qui déclenchent
ou stoppent la transcription des gènes en protéines, s'expriment
dans certaines conditions.
Les formules mathématiques développées par l'équipe
et implémentées dans un outil logiciel ont été
utilisées par une équipe de l'Université de New York
qui travaille sur la drosophile, ce qui a permis de mettre en évidence
la présence de promoteurs.
L'équipe ALGO réunit six chercheurs INRIA, qui travaillent
notamment sur l'analyse d'algorithmes de structures de données. Un
chercheur et un doctorant se consacrent essentiellement à cette application.
Ces méthodes mathématiques, développées pour elles-mêmes,
trouvent de nombreuses applications en génomique, entre autres.
Le projet collabore en France avec les universités d'Evry, Orsay et
Bordeaux sur les problèmes mathématiques et informatiques, ainsi
qu'avec le GBMA à Marseille pour les aspects biologiques.
Les principales collaborations internationales se font avec NIIGenetika (Moscou)
et le NYU (Etats-Unis).
Bruno.Salvy@inria.fr
01 39 63 55 20
INRIA Rocquencourt
Modéliser le fonctionnement de la cellule pour créer une "e-cellule" :
le rêve est encore lointain. Pourtant certaines équipes comme
HELIX s'en approchent en travaillant à la description des interactions
géniques.
La production de protéines par les gènes est régulée
en fonction des besoins de la cellule : température, présence
de telle ou telle molécule, etc.
Ce sont d'autres protéines, produites par d'autres gènes, ou
venant de l'extérieur, qui effectuent cette régulation. Il existe
donc des réseaux d'interaction de gènes.
L'un des projets d'HELIX consiste à rechercher les moyens de décrire
et de simuler ces réseaux.
Comme pour d'autres modèles biologiques, il n'y a actuellement pas
suffisamment de données pour faire des modèles mathématiques
classiques. L'équipe recherche donc un niveau de description adapté
aux connaissances disponibles. La simulation est qualitative, mais elle est
déjà intéressante pour les biologistes.
HELIX travaille sur ce projet en partenariat avec des biologistes de l'Université
Joseph Fourier de Grenoble avec qui un premier modèle a déjà
été développé et publié.
Ce n'est qu'un des projets sur lesquels travaille l'équipe HELIX qui se consacre exclusivement à la génomique. D'autres travaux portent sur :
L'équipe associe à part égale biologistes et informaticiens,
sur deux sites : à Grenoble, où la finalité est plutôt
informatique, et à Lyon, où la finalité est plus biologique.
A Lyon, l'équipe fait partie d'une Unité Mixte de Recherche
associant l'Université Claude Bernard et le CNRS.
HELIX réunit en tout trente-cinq chercheurs (INRIA, CNRS, universités),
une dizaine d'ingénieurs et plusieurs doctorants.
L'équipe es également associée à une équipe
de l'Institut Suisse de Bio-Informatique dirigée par Amos Bairoch et
spécialisée dans les données sur les séquences
protéiniques.
HELIX travaille notamment en partenariat avec :
Genome Express (Grenoble)
Hybrigenics (Paris)
XRCE (Xerox Research Center Europe)
UMR 5558, université Claude Bernard et CNRS, Lyon
SIB (Institut Suisse de Bioinformatique), Geneve
Lab. de Chimie) des Proteines, CEA, Grenoble
CERMO, université Joseph Fourier, Grenoble
Francois.Rechenmann@inria.fr
04 76 61 53 65
Alain.Viari@inria.fr
04 76 61 54 74
INRIA Rhône-Alpes
GenoStar associe l'INRIA, l'Institut Pasteur et les sociétés
Hybrigenics et Genome Express.
L'objectif de ces travaux est de fournir aux biologistes un environnement
informatique intégré.
GenoStar comprend plusieurs modules :
Le séquençage des génomes a permis d'identifier moins
de gènes (environ 30 000) que ce que l'on envisageait en observant
le nombre de protéines produites par la cellule. L'erreur d'appréciation
vient de ce que l'on croyait que chaque gène ne produisait qu'une seule
et même protéine : on sait maintenant que c'est faux. Un même
gène peut produire différentes protéines selon le contexte,
à travers un phénomène complexe, l'épissage.
Au cours des différentes étapes qui permettent le passage de
l'ADN vers les protéines, on constate qu'un gène ne se transcrit
pas en totalité. En effet, certains éléments s'expriment
sous forme de protéines, d'autres pas.
L'équipe MODBIO travaille sur ce phénomène biologique
qu'est l'épissage, en partenariat avec le laboratoire MAEM (maturation
des ARN et enzymologie moléculaire) du CNRS.
Ce qui intéresse particulièrement les biologistes, c'est que
cet épissage varie selon les conditions cellulaires. En gardant certains
éléments (les exons) et en en éliminant d'autres (les
introns), le gène produit une protéine. Mais une autre sélection,
fonction d'autres conditions cellulaires, produit une protéine différente.
Un même gène peut alors s'exprimer de différentes façons
selon les circonstances. Ce phénomène d'épissage alternatif
joue en rôle essentiel dans les processus biologiques, par la diversité
et la sécurité moléculaire qu'il procure.
A partir des multiples données disponibles, l'équipe MODBIO
cherche à comprendre les processus biologiques pour doter les biologistes
d'outils performants par le biais de techniques de modélisation et
de simulation.
L'équipe MODBIO participe également à d'autres axes de recherches, notamment dans le domaine protéique. L'équipe s'intéresse ainsi à l'analyse et à la prédiction de structure de protéines. Ce dernier problème est également l'un des enjeux clés de la bio-informatique.
MODBIO est un projet récent à l'INRIA ; il se consacre à
la modélisation informatique des phénomènes biologiques
aux niveaux moléculaire et cellulaire, dans le but d'aider les biologistes
à faire des prédictions sur le comportement des systèmes
qu'ils étudient.
L'équipe comprend quatre chercheurs et enseignant-chercheurs (INRIA,
CNRS et Université Henri Poincaré de Nancy), deux post-doctorants
et deux doctorants qui travaillent sur deux thèmes principaux :
Alexander.Bockmayr@inria.fr
03 83 59 30 41
INRIA Lorraine - LORIA