Etude comparative d’outils d’analyses de données de séquençage métagénomiques

Deadline: 
Friday, December 22, 2017
Period: 
01/04/2018 to 01/07/2018
City: 
Ile de France Jouy en Josas
Research Unit/Team name: 
MaIAGE

Stage de Master 1 - durée 4 mois

 

Dates proposées : début mars à mi-juillet 2018

 

Sujet de stage

Afin de caractériser les écosystèmes microbiens complexes, de plus en plus d’approches basées sur le séquençage métagénomique sont développées. Les approches de type « whole genome sequencing » permettent de séquencer des fragments de l’ensemble des génomes, afin d’identifier et quantifier les espèces présentes dans les échantillons. Plusieurs outils ont été développés afin de caractériser les séquences obtenues.

L’équipe StatInfOmics (Statistique et Bioinformatique des données Omiques) et la plateforme Migale de l’unité MaIAGE (Mathématiques et Informatique Appliquées du Génome à l'Environnement) sont impliquées dans plusieurs projets métagénomiques. Dans ce cadre, nous cherchons un outil d’analyse rapide capable de comparer les données de séquençage à une base de génomes de grande taille.

Cet outil sera en particulier utilisé pour le projet FoodMicrobiomes transfert, qui vise à mieux connaitre les écosystèmes fromagers français (collaboration avec l’unité Micalis). Pour ce projet, nous développons un outil d’analyse métagénomique qui permet une assignation taxonomique précise, et un ingénieur travaille à son intégration dans une interface web [1]. Cependant, afin d’accélérer les calculs, nous souhaiterions faire un premier filtre parmi les génomes disponibles avec un outil plus rapide, qui sera choisi pendant le stage.

Nous souhaitons également mettre en place des analyses métagénomique shotgun en routine sur la plateforme Migale, et proposer des tutoriaux aux utilisateurs, et ce travail aidera au choix des outils.

Le travail proposé est de comparer plusieurs outils, basés sur des comparaisons de k-mer ou la transformée de Burrow-Wheeler. Les critères de sélections seront : un outil disponible en ligne de commande, pour lequel il est possible de construire une banque de référence à façon, facile à installer et à interpréter, de préférence maintenu, et qui donne des résultats fiables. Nous avons pré-sélectionné 4 outils qui nous semblent pertinents : Centrifuge[2], CLARK[3], Kaiju[4], Kraken[5]. Les tests se feront sur des jeux de données simulés ainsi que

des données de séquençage métagénomique. Les résultats obtenus seront visualisés à l’aide d’outils adaptés, par exemple Krona[6].

Le stage se déroulera dans l’unité MaIAGE (Mathématiques et Informatique Appliquées du Génome à l'Environnement) du centre INRA de Jouy en Josas, qui compte de nombreux bioinformaticiens, statisticiens, mathématiciens. L’étudiant aura accès aux ressources de calcul de la plateforme Migale et sera invité à assister aux séminaires de l’unité et du centre.

 

BIBLIOGRAPHIE

[1] Guirimand, T., Pauvert, C., Derozier, S., Abraham, A. L., Mariadassou, M., Loux, V., & Renault, P. (2016, June). Cheese ecosystems insights with shotgun metagenomics and a metadata extended genomics database. In JOBIM 2016: Journées ouvertes de biologie informatique et mathématiques (p. np).

[2] Kim, D., Song, L., Breitwieser, F. P., & Salzberg, S. L. (2016). Centrifuge: rapid and sensitive classification of metagenomic sequences. Genome research, 26(12), 1721-1729.

[3] Ounit, R., Wanamaker, S., Close, T. J., & Lonardi, S. (2015). CLARK: fast and accurate classification of metagenomic and genomic sequences using discriminative k-mers. BMC genomics, 16(1), 236.

[4] Menzel, P., Ng, K. L., & Krogh, A. (2016). Fast and sensitive taxonomic classification for metagenomics with Kaiju. Nature communications, 7.

[5] Wood, D. E., & Salzberg, S. L. (2014). Kraken: ultrafast metagenomic sequence classification using exact alignments. Genome biology, 15(3), R46.

[6] Ondov, B.D., Bergman, N.H., & Phillippy AM. (2011). Interactive metagenomic visualization in a Web browser. BMC Bioinformatics. 12(1):385.

 

Encadrement : Anne-Laure Abraham ( ) et Olivier Rué ( )

 

Lieu du stage : équipe StatInfOmics et plateforme Migale, Unité MaIAGE, INRA - Domaine de Vilvert - F-78352 Jouy-en-Josas