Les progrès récents des biotechnologies à haut débit facilitent l'accès à de vastes ensembles de données, ce qui représente à la fois des opportunités et des défis pour la biostatistique.
Dans ce contexte, les méthodes à noyau, qui offrent une version non linéaire de tout algorithme linéaire uniquement basé sur le produit scalaire, sont particulièrement adaptées à l'analyse et à l'intégration de données de grande dimension.
Cette thèse s'inscrit dans le cadre du projet européen E-MUSE, « Complex microbial ecosystems multiscale modelling : mechanistic and data driven approaches integration ». Ce travail aborde les défis posés par l'interprétabilité des méthodes à noyau et l'intégration de sources hétérogènes.
Tout d'abord, nous présentons la méthode du gradient interprétable pour l'analyse en composantes principales à noyau (KPCA-IG). Contrairement aux techniques existantes basées sur la permutation, KPCA-IG classe les variables de manière déterministe sur la base des dérivées partielles du noyau, offrant ainsi une solution efficace sur le plan du calcul et interprétable sur le plan biologique.
Grâce à des expériences sur des ensembles de données simulées et réelles et, grâce à une approche plus théorique, nous démontrons la capacité de KPCA-IG à identifier les caractéristiques d'entrée pertinentes.
En outre, nous proposons un nouveau package R, kpcaIG, pour mettre cette méthode à la disposition des praticiens. Nous l'appliquons ensuite à des données provenant du projet E-MUSE afin d'élucider les relations bactériennes mutualistes dans les communautés microbiennes de fromage.
En outre, cette thèse explore le multiple kernel learning (MKL) pour l'intégration de données omiques provenant de diverses sources.
Nous proposons de nouvelles approches MKL en adaptant des algorithmes d'intégration non supervisés à des tâches supervisées avec des machines à vecteurs de support. Nous testons également de nouvelles architectures d'apprentissage profond pour la fusion et la classification des noyaux. Les résultats montrent que les modèles basés sur MKL peuvent être plus performants que les approches d'intégration multi-omique supervisées plus complexes et plus modernes.
Dans la recherche où la collaboration interdisciplinaire est de plus en plus nécessaire, notre travail comble le fossé entre les développements méthodologiques et les applications pertinentes en biologie et en médecine de précision, en étudiant l'analyse non linéaire de données multi-omiques et l'intégration avec des approches à noyau. |
The recent advancement in high-throughput biotechnologies is making large datasets easily available, posing both opportunities and challenges for biostatistics.
In this context, kernel methods, which offer a nonlinear version of any linear algorithm solely based on dot products, are particularly suited for analyzing and integrating high-dimensional data.
This thesis is part of the European project E-MUSE, "Complex microbial ecosystems multiscale modelling: mechanistic and data driven approaches integration". This work addresses the interpretability of kernel methods and the integration of heterogeneous sources.
Firstly, we introduce kernel Principal Components Interpretable Gradient (KPCA-IG), a novel approach to obtaining an interpretable version of kernel PCA. Unlike existing permutation-based techniques, KPCA-IG deterministically ranks variables based on partial derivatives of the kernel, providing a computationally efficient and biologically interpretable solution.
Through experiments on simulated and real-world datasets and from a theoretical point of view, we demonstrate KPCA-IG's ability to identify relevant input features.
Further, we also propose a new R package, kpcaIG, to make the method available for practitioners. Then, we apply it to datasets from the E-MUSE to unravel the mutualistic bacterial relationship in cheese microbial communities.
Additionally, this thesis explores multiple kernel learning (MKL) methods for integrating diverse omics layers.
We provide novel MKL approaches by adapting unsupervised integration algorithms for supervised tasks with support vector machines and testing new deep-learning architectures for kernel fusion and classification. The results show that MKL-based models can outperform more complex, state-of-the-art, supervised multi-omics integrative approaches.
In research that increasingly needs interdisciplinary collaboration, our work bridges the gap between methodological developments and relevant biology and precision medicine applications, investigating nonlinear multi-omics data analysis and integration with kernel approaches. |