logo inria

Information de meme niveau :

| sommaire |

-----------------------
Génomique
-----------------------

 

De nombreuses équipes à travers le monde travaillent actuellement sur les génomes des différents organismes, sur les étapes qui constituent la chaîne d'expression de l'ADN et les protéines qui en sont l'expression finale.

Si le séquençage est désormais une activité quasi-industrielle, l'identification des gènes dans les séquences, la compréhension de ce qui est en jeu pour telle ou telle fonction biologique, l'évolution et le fonctionnement du génome constituent de grands enjeux scientifiques pour la biologie comme pour les sciences de l'information. Alors qu'auparavant, les publications de données se faisaient dans des revues, elles sont désormais électroniques et il se constitue à travers le monde des banques de données, certaines publiques, d'autres privées, où sont recueillis les efforts de séquençage des différentes équipes.
Face à ce stock, l'informatique, la statistique et les mathématiques sont indispensables pour :

Trois équipes développent des algorithmes d'analyse de la séquence :

HELIX, conçoit des outils informatiques et des environnements de génomique exploratoire, et MODBIO travaille sur la détermination de structures de macromolécules biologiques et leur modélisation pour la simulation.

GENOSTAR a pour objectif de fournir aux biologistes un environnement informatique intégré.

 

ADAGE

Des algorithmes pour analyser la séquence du génome

Un grand pourcentage des séquences des génomes sont des séquences répétées des mêmes successions de nucléotides (codés A, C, T, G). De quelques lettres à des centaines, le génome duplique l'information. Pourquoi ? L'équipe ADAGE travaille dans ce domaine, appliquant son savoir-faire en algorithmique combinatoire pour recenser ces répétitions à travers les séquences disponibles et les analyser.

Les répétitions correspondent à différents phénomènes. Certaines, les micro-satellites, de très courts fragments de quelques nucléotides, sont répétées des dizaines ou des centaines de fois. Il se trouve que ce type de répétitions est impliqué dans certaines maladies génétiques graves (maladie de Huntington par exemple). Par ailleurs, ces répétitions sont utilisées comme marqueurs génétiques pour identifier le profil génétique d'un individu, d'où leur utilisation par la médecine légale. A l'opposé des micro-satellites, il existe dans le génome des séries gigantesques où des milliers, voire des dizaines de milliers de "lettres" sont répétées, parfois en tandem. L'identification des répétitions dans un génome donné est essentielle.

C'est pour cette raison que l'équipe ADAGE recherche des algorithmes à la fois rapides, efficaces et exhaustifs. Le logiciel MREPS, mis au point par les chercheurs d'ADAGE, permet de trouver toutes les répétitions en tandem présentes dans un génome entier en quelques secondes.

Un autre domaine d'application des recherches algorithmiques d'ADAGE est la recherche de motifs responsables de l'activation de certains gènes, les signaux de régulation. ADAGE travaille sur le génome d'une bactérie, avec des biologistes du Laboratoire de génétique et microbiologie de l'Université Henri Poincaré à Nancy, pour identifier ces signaux. Cette bactérie de la famille des Streptomyces est utilisée dans la pharmacie pour la production d'antibiotiques et dans l'agro-alimentaire.

ADAGE travaille également avec des biologistes de l'IGBMC, Institut de génétique et biologie moléculaire et cellulaire à Strasbourg, sur les séquences des protéines qui sont plus courtes que celles du génome mais qui sont composées de vingt éléments. ADAGE développe un modèle mathématique pour améliorer Ballast, le logiciel d'analyse des séquences de protéines développé par l'IGBMC.

L'équipe et ses recherches

L'algorithmique combinatoire est le domaine de prédilection de l'équipe ADAGE, qui réunit cinq chercheurs et enseignants-chercheurs permanents (INRIA, CNRS, Université de Nancy 1), tous informaticiens. Leurs travaux portent sur le développement et l'analyse d'algorithmes sur les structures discrètes.

ADAGE
Algorithmique discrète et applications à la génomique
Grégory KUCHEROV, responsable scientifique

Gregory.Kucherov@inria.fr
03 83 59 30 21
INRIA Lorraine - LORIA

/SYMBIOSE

A la recherche de signatures

Les protéines peuvent être regroupées en familles, correspondant chacune à des fonctions particulières dans l'organisme. On cherche actuellement à caractériser ces familles au niveau de leur séquence : à trouver leurs "signatures".
Il y a deux grands intérêts et applications à ce type de recherche :

Ces travaux nécessitent des modèles complexes dans la mesure où les structures spatiales impliquées le sont également, faisant intervenir en particulier des connexions relativement distantes.
L'approche de SYMBIOSE est combinatoire et linguistique : elle part du principe que les séquences d'une même famille partagent une sorte de langage commun , que l'on cherche à caractériser.

SYMBIOSE travaille notamment en collaboration avec le laboratoire - Canaux et récepteurs membranaires - une unité mixte de recherche CNRS - Université de Rennes travaillant sur les séquences génétiques et la structure des canaux membranaires. Il s'agit de protéines situées dans la membrane des cellules, qui servent à faire passer d'autres molécules : de l'eau, du glycérol, etc.
L'équipe SYMBIOSE apporte sa collaboration à ces travaux en explorant les banques de données publiques à la recherche de séquences génétiques se rapprochant de celles étudiées à Rennes. L'objectif est d'élargir le champ de recherche et de doter le laboratoire d'une quantité beaucoup plus grande d'informations pertinentes sur ces canaux. Cette information permet de construire des signatures distinguant ces protéines d'autres protéines voisines comme les transporteurs ABC.
Grâce à cet appui, les biologistes ont déjà obtenu des résultats : ils sont notamment parvenu, en agissant sur le génome, à transformer la fonction d'un canal membranaire à eau (aquaporine) en canal à glycérol.
Or, ces fonctions sont importantes pour comprendre de nombreuses maladies génétiques, souvent liées à un transfert de l'eau qui est déréglé.
SYMBIOSE cherche à élargir ses recherches aux séquences et aux fonctions d'autres molécules, notamment les prions.

SYMBIOSE travaille également sur la comparaison intensive de séquences via des architectures de machines parallèles et, comme HELIX mais à une échelle moindre, à la modélisation des interactions géniques impliquées dans une maladie ou un métabolisme.

L'équipe et ses recherches

SYMBIOSE est un projet de bio-informatique en cours de création, issu d'AIDA, qui affiche dans son nom sa volonté de rapprocher informaticiens et biologistes. Il s'intéresse particulièrement à l'analyse linguistique de séquences et à l'analyse de données du post-génome, les étapes dans lesquelles le génome s'exprime (transcriptome, protéome).
Ces travaux aident les biologistes dans la découverte des fonctions des gènes et des protéines en vue du diagnostic et de la compréhension des facteurs pathologiques.
L'équipe comprend une dizaine de chercheurs et enseignants-chercheurs permanents (INRIA, CNRS, Université de Rennes 1) qu'assistent deux ingénieurs experts et quatre étudiants.
Les recherches interviennent dans les domaines :

L'équipe est fortement impliquée dans la Génopole Ouest et a été à l'origine d'un DEA Génomique et informatique à l'Université de Rennes, dont la première promotion a été diplômée en 2001.

Partenariats

L'équipe travaille avec de nombreux laboratoires Inserm et Inra de Rennes impliqués dans la génomique et la post-génomique.
En particulier, SYMBIOSE participe au programme Inra national Agena (étude du transcriptome d'espèces d'intérêt agronomique) et à un projet européen avec l'Inra Scribe ( étude des gènes impliqués dans la régulation du stress chez la truite).

AIDA /SYMBIOSE
Modélisation et apprentissage pour l'interprétation de données et l'aide à la décision 
Jacques NICOLAS, responsable scientifique

Jacques.Nicolas@inria.fr
02 99 84 73 12
INRIA Rennes - IRISA

ALGO

Des algorithmes pour mieux comprendre la séquence du génome.


Dans le codage universel du vivant, chacun des quatre acides nucléiques de base qui constituent l'ADN est représenté par une lettre : A,C,T,G pour l'ADN et A,C,U,G pour l'ARN. Ainsi, le génome se lit comme une suite de lettres, un texte linéaire, qu'ALGO analyse à la recherche de "mots" qui constituent des signaux biologiques. La spécialité de l'équipe est le développement d'algorithmes rapides et efficaces pour rechercher ces mots. Il s'agit d'une recherche mathématique qui s'applique à trouver la façon opérationnelle la moins coûteuse et la plus rentable d'effectuer ces recherches sur un nombre important de données. ALGO développe ce type d'outils depuis longtemps pour d'autres applications.

L'une des approches possibles sur le génome, étant donné ce grand nombre de données, est de rechercher par des méthodes algorithmiques les mots qui apparaissent plus souvent ou moins souvent, que ce que donnerait un système complètement aléatoire. On évalue ensuite l'écart statistique par des formules mathématiques. Enfin, on cherche, avec les biologistes, à trouver un sens aux éventuelles sur-représentations ou sous-représentations.

Aujourd'hui, l'équipe applique ses recherches à l'identification de signaux de régulation dans le génome. Ces signaux qui déclenchent ou stoppent la transcription des gènes en protéines, s'expriment dans certaines conditions.
Les formules mathématiques développées par l'équipe et implémentées dans un outil logiciel ont été utilisées par une équipe de l'Université de New York qui travaille sur la drosophile, ce qui a permis de mettre en évidence la présence de promoteurs.

L'équipe et ses recherches

L'équipe ALGO réunit six chercheurs INRIA, qui travaillent notamment sur l'analyse d'algorithmes de structures de données. Un chercheur et un doctorant se consacrent essentiellement à cette application.
Ces méthodes mathématiques, développées pour elles-mêmes, trouvent de nombreuses applications en génomique, entre autres.

Partenariats

Le projet collabore en France avec les universités d'Evry, Orsay et Bordeaux sur les problèmes mathématiques et informatiques, ainsi qu'avec le GBMA à Marseille pour les aspects biologiques.
Les principales collaborations internationales se font avec NIIGenetika (Moscou) et le NYU (Etats-Unis).

ALGO
Algorithmes
Bruno SALVY, responsable scientifique

Bruno.Salvy@inria.fr
01 39 63 55 20
INRIA Rocquencourt

HELIX

Les outils informatiques de la génomique

Modéliser le fonctionnement de la cellule pour créer une "e-cellule" : le rêve est encore lointain. Pourtant certaines équipes comme HELIX s'en approchent en travaillant à la description des interactions géniques.
La production de protéines par les gènes est régulée en fonction des besoins de la cellule : température, présence de telle ou telle molécule, etc.
Ce sont d'autres protéines, produites par d'autres gènes, ou venant de l'extérieur, qui effectuent cette régulation. Il existe donc des réseaux d'interaction de gènes.
L'un des projets d'HELIX consiste à rechercher les moyens de décrire et de simuler ces réseaux.
Comme pour d'autres modèles biologiques, il n'y a actuellement pas suffisamment de données pour faire des modèles mathématiques classiques. L'équipe recherche donc un niveau de description adapté aux connaissances disponibles. La simulation est qualitative, mais elle est déjà intéressante pour les biologistes.
HELIX travaille sur ce projet en partenariat avec des biologistes de l'Université Joseph Fourier de Grenoble avec qui un premier modèle a déjà été développé et publié.

Ce n'est qu'un des projets sur lesquels travaille l'équipe HELIX qui se consacre exclusivement à la génomique. D'autres travaux portent sur :

L'équipe et ses recherches

L'équipe associe à part égale biologistes et informaticiens, sur deux sites : à Grenoble, où la finalité est plutôt informatique, et à Lyon, où la finalité est plus biologique. A Lyon, l'équipe fait partie d'une Unité Mixte de Recherche associant l'Université Claude Bernard et le CNRS.

HELIX réunit en tout trente-cinq chercheurs (INRIA, CNRS, universités), une dizaine d'ingénieurs et plusieurs doctorants.
L'équipe es également associée à une équipe de l'Institut Suisse de Bio-Informatique dirigée par Amos Bairoch et spécialisée dans les données sur les séquences protéiniques.

Partenariats

HELIX travaille notamment en partenariat avec :
Genome Express (Grenoble)
Hybrigenics (Paris)
XRCE (Xerox Research Center Europe)
UMR 5558, université Claude Bernard et CNRS, Lyon
SIB (Institut Suisse de Bioinformatique), Geneve
Lab. de Chimie) des Proteines, CEA, Grenoble
CERMO, université Joseph Fourier, Grenoble

action HELIX
Informatique et génomique
François RECHENMANN,
responsable scientifique

Francois.Rechenmann@inria.fr
04 76 61 53 65
Alain.Viari@inria.fr
04 76 61 54 74
INRIA Rhône-Alpes

GÉNOSTAR

GenoStar associe l'INRIA, l'Institut Pasteur et les sociétés Hybrigenics et Genome Express.
L'objectif de ces travaux est de fournir aux biologistes un environnement informatique intégré.
GenoStar comprend plusieurs modules :

Une première version de GenoStar sera disponible en 2002. L'environnement logiciel devrait être ensuite commercialisé par les deux partenaires industriels.
L'objectif de l'équipe, à travers cette valorisation, est de dégager des ressources pour continuer de développer les outils nécessaires à la biologie. Parallèlement, une version sera mise à la disposition des laboratoires publics à des conditions préférentielles.

MODBIO

Modéliser les phénomènes biologiques pour développer des outils de simulation.

Le séquençage des génomes a permis d'identifier moins de gènes (environ 30 000) que ce que l'on envisageait en observant le nombre de protéines produites par la cellule. L'erreur d'appréciation vient de ce que l'on croyait que chaque gène ne produisait qu'une seule et même protéine : on sait maintenant que c'est faux. Un même gène peut produire différentes protéines selon le contexte, à travers un phénomène complexe, l'épissage.
Au cours des différentes étapes qui permettent le passage de l'ADN vers les protéines, on constate qu'un gène ne se transcrit pas en totalité. En effet, certains éléments s'expriment sous forme de protéines, d'autres pas.
L'équipe MODBIO travaille sur ce phénomène biologique qu'est l'épissage, en partenariat avec le laboratoire MAEM (maturation des ARN et enzymologie moléculaire) du CNRS.
Ce qui intéresse particulièrement les biologistes, c'est que cet épissage varie selon les conditions cellulaires. En gardant certains éléments (les exons) et en en éliminant d'autres (les introns), le gène produit une protéine. Mais une autre sélection, fonction d'autres conditions cellulaires, produit une protéine différente. Un même gène peut alors s'exprimer de différentes façons selon les circonstances. Ce phénomène d'épissage alternatif joue en rôle essentiel dans les processus biologiques, par la diversité et la sécurité moléculaire qu'il procure.
A partir des multiples données disponibles, l'équipe MODBIO cherche à comprendre les processus biologiques pour doter les biologistes d'outils performants par le biais de techniques de modélisation et de simulation.

L'équipe MODBIO participe également à d'autres axes de recherches, notamment dans le domaine protéique. L'équipe s'intéresse ainsi à l'analyse et à la prédiction de structure de protéines. Ce dernier problème est également l'un des enjeux clés de la bio-informatique.

L'équipe et ses recherches

MODBIO est un projet récent à l'INRIA ; il se consacre à la modélisation informatique des phénomènes biologiques aux niveaux moléculaire et cellulaire, dans le but d'aider les biologistes à faire des prédictions sur le comportement des systèmes qu'ils étudient.
L'équipe comprend quatre chercheurs et enseignant-chercheurs (INRIA, CNRS et Université Henri Poincaré de Nancy), deux post-doctorants et deux doctorants qui travaillent sur deux thèmes principaux :

 

MODBIO
Modèles informatiques en biologie moléculaire 
Alexander BOCKMAYR, responsable scientifique

Alexander.Bockmayr@inria.fr
03 83 59 30 41
INRIA Lorraine - LORIA

 

bas de page
début de la pagepage d'accueil du site
© INRIA - mis à jour le 17/10/2001 - webmaster@inria.fr