Archive ouverte HAL - Genetic risk score based on statistical learning Accéder directement au contenu Accéder directement à la navigation
Thèse

Genetic risk score based on statistical learning

Résumé : Le génotypage devient de moins en moins cher, rendant les données de génotypes disponibles pour des millions d’individus. Par ailleurs, l’imputation permet d’obtenir l’information génotypique pour des millions de positions de l’ADN, capturant l’essentiel de la variation génétique du génome humain. Compte tenu de la richesse des données et du fait que de nombreux traits et maladies sont héréditaires (par exemple, la génétique peut expliquer 80% de la variation de la taille dans la population), il est envisagé d’utiliser des modèles prédictifs basés sur l’information génétique dans le cadre d’une médecine personnalisée.Au cours de ma thèse, je me suis concentré sur l’amélioration de la capacité prédictive des modèles polygéniques. Les modèles prédictifs faisant partie d’une analyse statistique plus large des jeux de données, j’ai développé des outils permettant l’analyse exploratoire de grands jeux de données, constitués de deux packages R/C++ décrits dans la première partie de ma thèse. Ensuite, j’ai développé une implémentation efficace de larégression pénalisée pour construire des modèles polygéniques basés sur des centaines de milliers d’individus génotypés. Enfin, j’ai amélioré la méthode appelée “clumpingand thresholding”, qui est la méthode polygénique la plus largement utilisée et qui estbasée sur des statistiques résumées plus largement accessibles par rapport aux données individuelles.Dans l’ensemble, j’ai appliqué de nombreux concepts d’apprentissage statistique aux données génétiques. J’ai utilisé du “extreme gradient boosting” pour imputer des variants génotypés, du “feature engineering” pour capturer des effets récessifs et dominants dans une régression pénalisée, et du “parameter tuning” et des “stacked regres-sions” pour améliorer les modèles polygéniques prédictifs. L’apprentissage statistique n’est pour l’instant pas très utilisé en génétique humaine et ma thèse est une tentative pour changer cela.
Type de document :
Thèse
Liste complète des métadonnées

Littérature citée [234 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-02476202
Contributeur : Abes Star :  Contact
Soumis le : mercredi 12 février 2020 - 15:12:32
Dernière modification le : jeudi 9 juillet 2020 - 09:44:08
Document(s) archivé(s) le : mercredi 13 mai 2020 - 16:32:20

Fichier

PRIVE_2019_archivage.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-02476202, version 1

Collections

Citation

Florian Privé. Genetic risk score based on statistical learning. Bioinformatics [q-bio.QM]. Université Grenoble Alpes, 2019. English. ⟨NNT : 2019GREAS024⟩. ⟨tel-02476202⟩

Partager

Métriques

Consultations de la notice

103

Téléchargements de fichiers

264