Soutenance de thèse de Mitja BRISCIK

Développement d'approches à noyaux pour l'intégration de données biologiques provenant de sources hétérogènes


Titre anglais : Development of kernel approaches for the integration of biological data from heterogeneous sources
Ecole Doctorale : EDMITT - Ecole Doctorale Mathématiques, Informatique et Télécommunications de Toulouse
Spécialité : Mathématiques et Applications
Etablissement : Université de Toulouse
Unité de recherche : UMR 5219 - IMT : Institut de Mathématiques de Toulouse


Cette soutenance a eu lieu mardi 28 janvier 2025 à 14h00
Adresse de la soutenance : Institut de Mathématiques de Toulouse, bâtiment 1R3 118 route de Narbonne 31062 Toulouse Cedex - salle Amphithéâtre Laurent Schwartz

devant le jury composé de :
Sébastien DEJEAN   Ingénieur de recherche   Université de Toulouse   Directeur de thèse
Anaïs BAUDOT   Directrice de recherche   CNRS Provence et Corse   Rapporteur
Andrea RAU   Directrice de recherche   INRAE Île-de-France - Jouy-en-Josas - Antony   Rapporteur
Laure COUTIN   Professeure des universités   Université de Toulouse   Président
Philippe  SAINT PIERRE   Maître de conférences   Université de Toulouse   Examinateur
Dominique SWENNEN   Chargée de recherche   INRAE Île-de-France - Versailles-Saclay   Examinateur


Résumé de la thèse en français :  

Les progrès récents des biotechnologies à haut débit facilitent l'accès à de vastes ensembles de données, ce qui représente à la fois des opportunités et des défis pour la biostatistique.
Dans ce contexte, les méthodes à noyau, qui offrent une version non linéaire de tout algorithme linéaire uniquement basé sur le produit scalaire, sont particulièrement adaptées à l'analyse et à l'intégration de données de grande dimension.
Cette thèse s'inscrit dans le cadre du projet européen E-MUSE, « Complex microbial ecosystems multiscale modelling : mechanistic and data driven approaches integration ». Ce travail aborde les défis posés par l'interprétabilité des méthodes à noyau et l'intégration de sources hétérogènes.
Tout d'abord, nous présentons la méthode du gradient interprétable pour l'analyse en composantes principales à noyau (KPCA-IG). Contrairement aux techniques existantes basées sur la permutation, KPCA-IG classe les variables de manière déterministe sur la base des dérivées partielles du noyau, offrant ainsi une solution efficace sur le plan du calcul et interprétable sur le plan biologique.
Grâce à des expériences sur des ensembles de données simulées et réelles et, grâce à une approche plus théorique, nous démontrons la capacité de KPCA-IG à identifier les caractéristiques d'entrée pertinentes.
En outre, nous proposons un nouveau package R, kpcaIG, pour mettre cette méthode à la disposition des praticiens. Nous l'appliquons ensuite à des données provenant du projet E-MUSE afin d'élucider les relations bactériennes mutualistes dans les communautés microbiennes de fromage.
En outre, cette thèse explore le multiple kernel learning (MKL) pour l'intégration de données omiques provenant de diverses sources.
Nous proposons de nouvelles approches MKL en adaptant des algorithmes d'intégration non supervisés à des tâches supervisées avec des machines à vecteurs de support. Nous testons également de nouvelles architectures d'apprentissage profond pour la fusion et la classification des noyaux. Les résultats montrent que les modèles basés sur MKL peuvent être plus performants que les approches d'intégration multi-omique supervisées plus complexes et plus modernes.
Dans la recherche où la collaboration interdisciplinaire est de plus en plus nécessaire, notre travail comble le fossé entre les développements méthodologiques et les applications pertinentes en biologie et en médecine de précision, en étudiant l'analyse non linéaire de données multi-omiques et l'intégration avec des approches à noyau.

 
Résumé de la thèse en anglais:  

The recent advancement in high-throughput biotechnologies is making large datasets easily available, posing both opportunities and challenges for biostatistics.
In this context, kernel methods, which offer a nonlinear version of any linear algorithm solely based on dot products, are particularly suited for analyzing and integrating high-dimensional data.
This thesis is part of the European project E-MUSE, "Complex microbial ecosystems multiscale modelling: mechanistic and data driven approaches integration". This work addresses the interpretability of kernel methods and the integration of heterogeneous sources.
Firstly, we introduce kernel Principal Components Interpretable Gradient (KPCA-IG), a novel approach to obtaining an interpretable version of kernel PCA. Unlike existing permutation-based techniques, KPCA-IG deterministically ranks variables based on partial derivatives of the kernel, providing a computationally efficient and biologically interpretable solution.
Through experiments on simulated and real-world datasets and from a theoretical point of view, we demonstrate KPCA-IG's ability to identify relevant input features.
Further, we also propose a new R package, kpcaIG, to make the method available for practitioners. Then, we apply it to datasets from the E-MUSE to unravel the mutualistic bacterial relationship in cheese microbial communities.
Additionally, this thesis explores multiple kernel learning (MKL) methods for integrating diverse omics layers.
We provide novel MKL approaches by adapting unsupervised integration algorithms for supervised tasks with support vector machines and testing new deep-learning architectures for kernel fusion and classification. The results show that MKL-based models can outperform more complex, state-of-the-art, supervised multi-omics integrative approaches.
In research that increasingly needs interdisciplinary collaboration, our work bridges the gap between methodological developments and relevant biology and precision medicine applications, investigating nonlinear multi-omics data analysis and integration with kernel approaches.

Mots clés en français :Biostatistiques,Analyse des données,Intégration de données multi-omiques
Mots clés en anglais :   Biostatisics,Data analysis,Multi-omics data integration,Kernel methods,KPCA