Diffuser et promouvoir la culture en mathématiques et en informatique déployée dans les sciences agronomiques à INRAE et rassembler la communauté des maths-info INRAE.

Back to top

Enrichissement et automatisation des sources utilisées de l’application Omnicrobe

Description: 

Contexte :

L’unité Mathématiques et Informatique Appliquées du Génome à l’Environnement (MaIAGE)1 est située sur le centre INRAE2 de Jouy-en-Josas. Cette unité de recherche regroupe des mathématiciens, des informaticiens, des bioinformaticiens et des biologistes qui développent des méthodes pour répondre à des questions de biologie et agro-écologie, allant de l'échelle moléculaire à l'échelle du paysage en passant par l'étude d'individus, de populations ou d'écosystèmes. MaIAGE est structurée en cinq équipes dont l’équipe Acquisition et formalisation des connaissances à partir de textes (Bibliome)3, et l’équipe Bioinformatique et statistique des données “omiques” (StatInfOmics)4. et la plateforme bioinformatique Migale5. Bibliome développe des méthodes de traitement automatique des langues (TAL) et d'apprentissage automatique (ML) pour extraire des informations de textes par des ontologies dans le domaine de la biologie. StatInfOmics développe et met en œuvre des méthodes statistiques et bioinformatiques dédiées à l’analyse de données “omiques”. Migale fournit des services à la communauté des sciences de la vie. Cette proposition de stage s’inscrit dans un projet commun aux trois équipes.

 

Missions :

L’unité MaIAGE développe l’application Omnicrobe5 qui collecte et intègre des informations sur les habitats, les phénotypes et les usages des micro-organismes. Ces informations sont actuellement extraites automatiquement des sources d’information textuelles et des bases de données bioinformatiques suivantes : PubMed, GenBank, DSMZ, CIRM. Les informations sont ensuite traitées à l’aide de pipelines spécialisés d’analyse de données (traitement automatique des langues et apprentissage machine) avant d’être stockées dans une base de données centralisées et rendues disponibles via des interfaces web et programmatique (API). Le stage portera sur l’enrichissement et l’extension des sources de données de l’application Omnicrobe. Le travail consistera à étudier les sources de données potentielles (BioSample6, EPMC7, MIRRI8, GCM9, etc.) et ensuite en l’implémentation des solutions (pipelines) permettant d’automatiser la collecte et l’intégration des informations pertinentes provenant des sources sélectionnées vers la base de données d’Omnicrobe.

Type de l'offre: 
Date limite de la candidature: 
31/01/2023
Période d'emploi: 
01/03/2023 - 31/08/2023
Email du contact: 
Unité de recherche d'affectation: 
Localisation CR INRA: