Back to top

Identification d’interactions Gene×Environnement par méta-analyse en génétique des plantes

Description: 

CONTEXTE

En génétique d'association on collecte sur une série d'individus (panel) des informations phénotypiques (eg leur taille ou une réponse physiologique) et des informations génotypiques (ie on "séquence" l'individu en différentes positions le long du génome - appelées marqueurs - pour savoir quels sont les allèles présents à ces positions). On analyse ensuite les données de la façon suivante : pour chaque marqueur on teste si la présence des différents allèles influe sur la variable réponse. A l'issue de l'analyse, on récupère autant de probabilités critiques qu'il y avait de marqueurs (généralement quelques centaines de milliers / millions). Il existe pour ce type d'analyse des outils dédiés qui permettent l'identification des marqueurs influant le caractère en quelques minutes. Cette stratégie a déjà permis l'identification de gènes majeurs impliqués dans des maladies à forte prévalence comme le cancer chez l'humain, ou à l'identification de gènes influant sur les performances de rendement ou de résistance aux parasites chez les plantes. On réalise alors une analyse environnement par environnement, et on récupère pour chaque environnement et chaque marqueur une probabilité critique. L'objectif d'une méta-analyse est de réaliser la synthèse des analyses séparées, par exemple en calculant pour chaque marqueur un score basé sur les probabilités critiques obtenues pour ce marqueur dans les différents environnements. Si les panels sont constitués d'individus distincts alors pour un même marqueur les probabilités critiques peuvent être considérées comme indépendantes. Lorsqu'il s'agit d'un même panel ou de panels très similaires d'un environnement à l'autre, une telle hypothèse d'indépendance n'est pas raisonnable, il faut donc explicitement prendre en compte cette dépendance dans la méta-analyse.

OBJECTIF DU STAGE

Dans un premier temps le stage consistera à développer une stratégie de méta-analyse prenant en compte la dépendance des panels étudiés, et à évaluer les performances de la stratégie proposée (en terme de puissance de détection des marqueurs influant sur le caractère étudié, et de contrôle de faux positifs) à l'aide d'une étude de simulations. Dans un deuxième temps la stratégie sera appliquée à différents panels issus de génétique des plantes et de génétique humaine. On considèrera à la fois le cas de variables réponses quantitatives et qualitatives.

COMPETENCES RECHERCHEES

Programmation en R, maîtrise de Rmarkdown, connaissances en Rcpp (ou Rpython) Intérêt pour les applications statistiques en biologie/génétique Le stage pourra potentiellement être poursuivi par une thèse.

Type de l'offre: 
Date limite de la candidature: 
29/02/2020
Période d'emploi: 
01/03/2020 - 31/08/2020
Email du contact: 
Unité de recherche d'affectation: 
Localisation CR INRA: