Back to top

Sélection de variables en grande dimension dansles modèles non linéaires à effets mixtes. Application en amélioration des plantes.

Description: 

Contexte applicatif

Les modèles à effets mixtes permettent d’analyser des observations collectéesde façon répétée sur plusieurs individus. La variabilité intrinsèque aux donnéesest alors attribuable à différentes sources (intra-individuelle, inter-individuelle, ré-siduelle) dont la prise en compte est essentielle pour caractériser sans biais les mé-canismes biologiques à l’origine des observations. Dans un modèle à effets mixtes, lavariabilité entre individus est décrite au moyen de covariables et d’effets aléatoires.Les covariables décrivent les différences entre individus dues à des caractéristiquesobservées tandis que les effets aléatoires représentent la part de la variabilité entreindividus qui n’est pas attribuable aux covariables mesurées. En amélioration desplantes, les modèles non linéaires à effets mixtes sont utilisés pour décrire le déve-loppement des plantes en fonction de leurs génotypes et des conditions environne-mentales. Ils permettent de comprendre le rôle des interactions entre le génotype etl’environnement dans l’évolution de la plante et sont utilisés pour prédire les perfor-mances de différentes variétés dans des conditions environnementales spécifiques.Les covariables considérées sont généralement nombreuses puisque les variétés sontcaractérisées par des milliers de covariables génétiques (des marqueurs moléculairespar exemple) dont on sait que la plupart d’entre elles n’ont aucun effet sur certainstraits phénotypiques. Il est donc intéressant d’envisager une sélection de variables àla fois pour identifier les régions du génome qui affectent effectivement le caractèred’intérêt et pour améliorer la capacité de prédiction du modèle. La grande dimen-sion des données génomiques implique d’aborder la sélection de variables dans uncadre où le nombre de covariables est plus grand que le nombre d’individus. A notreconnaissance, la question de la sélection de variables en grande dimension n’a jamaisété étudiée dans les modèles non linéaires à effets mixtes.

 

Objectifs

Après s’être approprié le formalisme des modèles non linéaires à effets mixtes[?], le stagiaire s’intéressera à la mise en place d’une méthode de sélection devariables en grande dimension dans ces modèles (par exemple un critère de type"Lasso" ou encore une méthode de type "spike and slab"). Les objectifs du stageseront

i) d’implémenter la méthode proposée,

ii) de réaliser des simulations pouren valider le comportement numérique,

iii) d’en étudier les propriétés théoriques, etiv) de l’appliquer à des données réelles.

L’application sur données réelles se fera encollaboration avec Renaud Rincent (UMR GQE - Le Moulon - Paris Saclay).

Le stage pourra déboucher sur une thèse.

 

Profil recherché

Le candidat doit être en formation de M2 (ou une formation équivalente) enstatistique. Un intérêt pour la modélisation statistique, des notions d’apprentissagestatistique (éventuellement en grande dimension) et de programmation enRsontattendus.Il est à noter qu’aucune connaissance en sciences du vivant n’est exigée et queselon le profil et les intérêts du candidat, le stage pourra se concentrer sur les aspectsthéoriques ou numériques.

Type de l'offre: 
Date limite de la candidature: 
15/02/2021
Période d'emploi: 
01/03/2021 - 31/08/2021
Email du contact: 
Unité de recherche d'affectation: 
Localisation CR INRA: