Insyght - navigateur de synténies et d'homologues

Mercredi, Décembre 31, 2014

Contact : Thomas Lacroix ( )
Unité : MIG (Mathématique, Informatique et Génome) – UR 1077 INRA
Département : MIA/MICA
Centre INRA de Recherche : Jouy-en-Josas

 

Résumé : L'application web Insyght permet les études de génomique comparée entre souches ou éspèces microbiennes. Elle permet une navigation aisée parmi les synténies colinéaires, les réarrangements génomiques complexes et les homologues, facilitant l'analyse des gènes qui sont niche-spécifiques ou appartiennent au core-génome, la détection d'évènements évolutionnaires, l'annotation fonctionnelle, et les profils phylogénétiques.

 

Mots-clés : Synténies ; Homologies ; Génomique comparative ; Annotation fonctionnelle des gènes ; Bactéries ; Bioinformatique

 

Contexte et enjeux : Agmial est la plateforme d’annotation de génomes microbiens développée dans MIG depuis 2001. Initialement, les projets traités par la plateforme étaient principalement centrés autour d'un seul génome bactérien. Depuis quelques années, nous observons une augmentation notable des projets impliquant plusieurs souches ou espèces, facilités par l'avènement des techniques de séquençage haut débit. Le laboratoire MIG a donc décidé de développer un outil de génomique comparée (Insyght) complémentaire d’Agmial pour faciliter les analyses multi-génomes. Ce projet a été initié dans le cadre de l'ANR MICROBIOGENOMICS et a pour but d'améliorer la productivité des biologistes dans divers domaines d'analyses: profils phylogénétiques, annotation de la fonction des gènes à l'échelle du génome, détection des évènements d'évolutions (ex: transferts horizontaux, réarrangements, etc.) et analyse de gènes niche-spécifiques ou core-génome. De nombreux outils pour explorer les synténies et les homologues existaient déjà, mais aucun ne répondait complètement à nos besoins. Par ailleurs, il reste plusieurs défis à relever dans ce domaine, par exemple:
- Naviguer efficacement parmi une grande quantité de données hétérogènes (coordonnée génomique,
plusieurs génomes à comparer, plusieurs homologues par comparaison, plusieurs annotations fonctionnelles par gènes,...)
- Détecter les réarrangements génomiques complexes, dispersés le long du génome, et de tailles différentes.
- Explorer à la fois les régions conservées et les régions idiosyncrasiques.
Un autre objectif d'Insyght est de proposer une interface plus interactivite et lisible que d’autres navigateurs de synténies et d'homologues en proposant de nouveaux paradigmes de visualisation.

 

Résultats : Insyght (http://genome.jouy.inra.fr/Insyght) est un outil de visualisation conçu pour améliorer la lisibilité et la navigation parmi des réarrangements génomiques complexes, des homologues et les régions génomiques idiosyncrasiques à l'échelle de plusieurs organismes. Les nouveautés apportées par cet outil sont les suivantes :
- Une vue d'organisation génomique dont l'originalité est d'associer une représentation symbolique et une représentation proportionnelle. La représentation symbolique améliore la lisibilité de la région génomique d'intérêt, alors que la représentation proportionnelle permet de localiser les réarrangements génomiques complexes, dispersés, et se produisant à différentes échelles.
- Un comparateur d'annotations fonctionnelles entre un gène de référence et ses homologues. Les annotations fonctionnelles sont classées en 3 catégories selon leur degré de mise en commun: la catégorie [Partagées] regroupe les annotations présentes chez le gène de référence et au moins 1 homologue ; la catégorie [Manquantes] regroupe les annotations présentes chez au moins 1 homologue mais absentes chez le gène de référence ; la catégorie [Unique] regroupe les annotations présentes chez le gène de référence et absentes parmi les homologues. Ce comparateur s'appuie sur une annotation fonctionnelle basée sur l’ontologie fonctionnelle Gene Ontology.
Par ailleurs, Insyght propose des améliorations par rapport aux outils existants concernant les points suivants:
- Un jeu de gènes d'intérêts peut être constitué librement et de façon itérative via une fonctionnalité de combinaison de filtres. Les filtres peuvent être de différentes natures (coordonnée génomique, présence / absence d'homologue, donnée d'annotation). Il est ainsi possible de formuler des requêtes ayant un sens biologique, par exemple trouver les gènes niche-spécifiques correspondant à un processus biologique particulier. Ce jeu de gènes de référence peut être analysé via une 3 ème vue appelée table d'orthologues qui permet de visualiser la présence ou l'absence d'orthologues parmi plusieurs organismes simultanément.
- Interopérabilité entre les 3 vues: il est possible de transférer un ou plusieurs gènes entre les vues.

Nous pensons que cette représentation et ces fonctionnalités innovantes peuvent aider les biologistes à analyser plus rapidement et de façon plus exhaustive les synténies, les régions génomiques  idiosyncrasiques et les homologues. Notre base de données publique contient actuellement 389 génomes procaryotes et est accessible à l'adresse http://genome.jouy.inra.fr/Insyght. Une machine virtuelle peut être téléchargée et installée localement pour réaliser l'analyse de génomes privés avec un petit groupe de génomes choisis par l'utilisateur (~20-40 génomes).

 

Perspectives : Les développements et applications (analyses biologiques) en cours pour ce projet sont les suivantes :
- Nous collaborons actuellement avec l'IDRIS dans le cadre du projet E-biothon pour intégrer plus de 2600 génomes complets dans notre base de données publique.
- Des analyses biologiques sont en cours concernant la région variable epa chez les Enterococcus faecalis (collaboration avec l'équipe de Pascale Serror, Micalis). Une analyse du génome accessoire d’Enterococcus faecalis V583 pour trouver des gènes candidats en relation avec la pathogénicité avait été effectuée fin 2013 et intégrée dans la publication 2014.
D'autres idées pour enrichir le projet sont à l'étude, par exemple:
- Interopérabilité plus poussée avec la plateforme d’annotation de génomes microbiens Agmial.
- Amélioration de l’accessibilité et de la performance de la machine virtuelle : téléchargement de données pré-calculées, vitesse d'exécution du pipeline, interface plus conviviale pour suivre les différentes étapes d'intégration des données, etc.
- Développement d’une fonctionnalité pour regrouper les gènes et organismes selon leur profil phylogénomique.
- Développement d’une fonctionnalité de calcul statistique concernant la sur-représentation de traits phénotypiques à l'intérieur d'un profil phylogénomique.
Nous envisageons de valoriser ces travaux par une publication supplémentaire.

 

Valorisation :
- 1 publication en 2014 (voir Références bibliographiques ci-dessous),
- 1 application web (http://genome.jouy.inra.fr/Insyght),
- 1 machine virtuelle (http://migale.jouy.inra.fr/?q=insyght-download-vm),
- 1 présentation orale lors de conférence scientifique (Microbial bioinformatics day 2014, Pasteur),
- 2 posters présentés lors de conférences scientifiques (JOBIM 2008, JOBIM 2013),
- 2 formations de 2h (2013, 2014) dans le cadre de la formation MIGALE "Annotation de génomes microbiens (Agmial)" (~7-10 personnes formées par an)

 

Références bibliographiques :
- Thomas Lacroix, Valentin Loux, Annie Gendrault, Mark Hoebeke and Jean-Francois Gibrat. (2014) Insyght: navigating amongst abundant homologues, syntenies and gene functional annotations in bacteria, it’s that symbol! Nucleic Acids Research, doi: 10.1093/nar/gku867