Soutenance de thèse de Armando ARREDONDO SOTO

inférence d’histoires démographiques de populations structurées et application à l’évolution humaine.


Titre anglais : inference of demographic histories in structured populations with an application to human evolution.
Ecole Doctorale : EDMITT - Ecole Doctorale Mathématiques, Informatique et Télécommunications de Toulouse
Spécialité : Mathématiques et Applications
Etablissement : Institut National des Sciences Appliquées de Toulouse
Unité de recherche : UMR 5219 - IMT : Institut de Mathématiques de Toulouse


Cette soutenance a eu lieu mardi 07 décembre 2021 à 15h00
Adresse de la soutenance : 135 Avenue de Rangueil, 31400, Toulouse. - salle Amphithéâtre Joseph Fourier

devant le jury composé de :
Lounès CHIKHI   Directeur de recherche   CNRS   Directeur de thèse
Asger HOBOLTH   Professeur   Department of Mathematics, Aarhus University   Rapporteur
Guillaume ACHAZ   Professeur des universités   Université de Paris   Rapporteur
Hilde WILKINSON-HERBOTS   Professeur   University College London   Examinateur
Beatrice LAURENT-BONNEAU   Professeur des universités   INSA Toulouse   Président
Olivier MAZET   Maître de conférences   INSA Toulouse   CoDirecteur de thèse


Résumé de la thèse en français :  

Déduire l'histoire démographique des espèces est l'un des plus grands défis de la génétique des populations. Cette histoire est souvent représentée comme une histoire de changements de taille, ignorant la structure de la population. Alternativement, lorsque la structure est supposée, elle est définie a priori comme un arbre de population et non inférée. Cette thèse vise à apporter des méthodes et des outils pour reconstruire l'histoire démographique de populations qui ont été structurées en un nombre inconnu de sous-populations pendant de longues périodes de temps.
Nous présentons deux approches de l'inférence démographique en présence de structure. La première est basée sur l'IICR (Inverse Instantaneous Coalescence Rate) qui est une fonction du modèle démographique et du schéma d'échantillonnage, et qui peut être estimée pour un seul individu diploïde. La méthode proposée ajuste les courbes IICR observées avec les courbes IICR exactes obtenues dans le cadre de modèles d'îles symétriques stationnaires par morceaux, et déduit le nombre d'îles, leur taille commune et l'importance du flux génétique à différentes périodes de temps. Notre application à un ensemble de cinq PSMCs humains a donné des histoires démographiques qui sont en accord avec des études précédentes suggérant une structure humaine ancienne.
La seconde approche suppose des échantillons génétiques multiples, et est centrée sur l'utilisation du SFS (Site Frequency Spectrum) comme statistique sommaire pour l'inférence démographique. Nous nous concentrons sur le calcul efficace du SFS exact attendu dans le cadre d'un modèle général de structure de population, et nous montrons que, pour des tailles d'échantillon allant jusqu'à 26 haploïdes, il est possible d'obtenir une bonne précision numérique et de bonnes performances dans les modèles d'îles symétriques en exploitant le modèle de sparsité de la matrice de transition pour le processus de Markov associé.

 
Résumé de la thèse en anglais:  

Inferring the demographic history of species is one of the greatest challenges in populations genetics. Such histories are often represented as histories of size changes, ignoring population structure. Alternatively, when structure is assumed, they are defined a priori as population trees and not inferred. This thesis aims to contribute methods and tools for reconstructing the demographic history of populations that have been structured into an unknown number of sub-populations for long periods of time.
We present two approaches to demographic inference in the presence of structure. The first is based on the IICR (Inverse Instantaneous Coalescence Rate) which is a function of the demographic model and sampling scheme, and can be estimated for a single diploid individual. The proposed method fits observed IICR curves with exact IICR curves obtained under piecewise stationary symmetrical island models, and infers the number of islands, their common size, and the amount of gene flow in different periods of time. Our application to a set of five human PSMCs yielded demographic histories that are in agreement with previous studies suggesting ancient human structure.
The second approach assumes multiple genetic samples, and is centered on the use of the SFS (Site Frequency Spectrum) as a summary statistic for demographic inference. We focus on the efficient computation of the exact expected SFS under a general model of population structure, and show that, for sample sizes up to 26 haploids, it is possible to achieve good numerical accuracy and performance in symmetrical island models by exploiting the sparsity pattern of the transition matrix for the associated Markov process.

Mots clés en français :Genétique des population,Processus stochastiques,Inférence,Evolution humaine
Mots clés en anglais :   Inference,Population genetics,Stochastic processes,Human evolution