Soutenance de thèse de Keurcien Luu le 21/12/17

Keurcien Luu de l’équipe BCM soutiendra sa thèse le jeudi 21 décembre 2017 à 14h00 sur le thème :

« Application de l’analyse en composantes principales pour étudier l’adaptation biologique en génomique des populations »

“ Application of principal component analysis to study biological adaptation in population genomics ”

Direction de Thèse :
- M. Michael BLUM, Directeur de Recherche CNRS, Université Grenoble Alpes, laboratoire TIMC-IMAG, Grenoble, Directeur

Membres du jury :
- M. Stéphane Dray, Directeur de Recherche, laboratoire LBBE "Biométrie et Biologie Évolutive", UCB, Lyon, Rapporteur
- M. Yves Vigouroux , Directeur de Recherche IRD France-Sud, laboratoire DIADE, Montpellier, Rapporteur
- Mme Hélène Badouin , Maître de conférences, laboratoire LBBE, UCB, Lyon, Examinateur
- M. Olivier François , Professeur Grenoble INP, Université Grenoble Alpes, laboratoire TIMC-IMAG, Grenoble, Examinateur

Lieu : Salle des Thèses n°109 du Bâtiment Boucherle, 109 Faculté de Médecine et de Pharmacie, 38700 La Tronche

— 

Mots-clés : Génétique des populations, Machine Learning, Apprentissage statistique, Séquençage nouvelle génération, Bio-informatique

Résumé : L’identification de gènes ayant permis à des populations de s’adapter à leur environnement local constitue une des problématiques majeures du domaine de la génétique des populations. Les méthodes statistiques actuelles répondant à cette problématique ne sont plus adaptées aux données de séquençage nouvelle génération (NGS). Nous proposons dans cette thèse de nouvelles statistiques adaptées à ces nouveaux volumes de données, destinées à la détection de gènes sous sélection. Nos méthodes reposent exclusivement sur l’Analyse en Composantes Principales, dont nous justifierons l’utilisation en génétique des populations. Nous expliquerons également les raisons pour lesquelles nos approches généralisent les méthodes statistiques existantes et démontrons l’intérêt d’utiliser une approche basée sur l’Analyse en Composantes Principales en comparant nos méthodes à celles de l’état de l’art. Notre travail a notamment abouti au développement de pcadapt, une librairie R permettant l’utilisation de nos statistiques de détection sur des données génétiques variées.

— 

Key-words : Population Genetics, Machine Learning, Statistical Learning, Next-Generation Sequencing, Bioinformatics

Abstract : Identifying genes involved in local adaptation is of major interest in population genetics. Current statistical methods for genome scans are no longer suited to the analysis of Next Generation Sequencing (NGS) data. We propose new statistical methods to perform genome scans on massive datasets. Our methods rely exclusively on Principal Component Analysis which use in population genetics will be discussed extensively. We also explain the reasons why our approaches can be seen as extensions of existing methods and demonstrate how our PCA-based statistics compare with state-of-the-art methods. Our work has led to the development of pcadapt, an R package designed for outlier detection for various genetic data.


Laboratoire TIMC-IMAG, Domaine de la Merci, 38706 La Tronche Cedex

CNRS
UGA
ENVL
Grenoble INP
Mentions Légales