Soutenance de thèse de Clément VIRICEL

Contributions au développement d'outils computationnels de design de protéine : méthodes et algorithmes de comptage avec garantie


Titre anglais : Contributions in the development of computational tools for protein design: methods and counting algorithms with guarantee
Ecole Doctorale : EDMITT - Ecole Doctorale Mathématiques, Informatique et Télécommunications de Toulouse
Spécialité : MATHEMATIQUES APPLIQUEES
Etablissement : Institut National des Sciences Appliquées de Toulouse
Unité de recherche : UPR 875 - MIAT - Mathématiques et Informatique Appliquées Toulouse


Cette soutenance a eu lieu lundi 18 décembre 2017 à 14h00
Adresse de la soutenance : INSA Toulouse 135 Avenue de Rangueil, 31400 Toulouse - salle Amphi Fourrier

devant le jury composé de :
Thomas SCHIEX   DR2   INRA Toulouse   Directeur de thèse
Christophe LECOUTRE   Professeur   Centre de Recherche Informatique de Lens   Rapporteur
Frédéric CAZALS   Directeur de Recherche   Inria Sophia Antipolis – Méditerranée   Rapporteur
Sophie BARBE   Chargé de Recherche   Laboratoire d'Ingénierie des Systèmes Biologiques et des Procédés   CoDirecteur de thèse
Martin COOPER   Professeur   Université de Toulouse   Président
Raphael GUEROIS   Directeur de Recherche   CEA - Université Paris Saclay   Examinateur


Résumé de la thèse en français :  

Cette thèse s'intéresse à deux sujets intrinsèquement liés : le calcul de la constante de normalisation d'un champs de Markov et l'estimation de l'affinité de liaison entre deux protéine.
Nous avons développé plusieurs algorithmes attaquant un problème de comptage #P-complet en se basant sur l'idée d'obtenir une approximation de la fonction de partition avec garantie déterministe. Ces algorithmes sont couplés avec des méthodes issues des modèles graphiques comme les cohérences locales, HBFS, l'élimination de variable ou encore la décomposition arborescente. En particulier, le principal algorithme de cette thèse, nommé Z*, basé sur un élagage de sous-arbre négligeables, s'est montré plus performant que les méthodes de l'état de l'art sur des instances issues d'interaction protéine-protéine. De plus, les deux autres algorithmes ont prouvé qu'ils pouvaient être une avancée dans le domaine des problèmes de comptage.
Une application concrète et directe du calcul de la fonction de partition est l'estimation de l'affinité entre deux systèmes de protéines. A l'aide de Z* et d'une fonction d'énergie originaire de Rosetta, nous avons développé un package permettant d'estimer la constante d'affinité sur une large librairie de mutant d'un complexe protéines-protéines. Nous avons analysé statistiquement notre estimation sur une base de données expérimentales de constantes d'affinité et nous l'avons confronté à des méthodes de l'état de l'art. Il en est ressortis que notre package était qualitativement meilleur que les méthodes existantes.

 
Résumé de la thèse en anglais:  

This thesis is focused on two intrinsically connected subjects: computation of the normalization constant of a Markov random field and estimation of the binding affinity between two proteins.
We developed several algorithms which tackled counting #P-complete problems based on the idea to obtain an approximation of partition function with deterministic guarantee. These algorithms are strengthened by methods stemming from graphical models as local consistencies, HBFS, variable elimination or tree decomposition. In particular, the main algorithm of this thesis, named Z*, based on the pruning of negligible subtree, proved to be more efficient than some state of the art's methods on instances from protein-protein interactions. Furthermore, the two other algorithms proved to be a breakthrough for the #P-complete counting problem.
A concrete and direct application of the computation of the partition function is the binding affinity estimation of two proteic systems. By means of Z* along with a Rosetta energy function, we developed a package allowing to estimate the binding constant on a large library of mutants for a protein-protein interaction. We statistically analyzed our estimation on a experimental database of binding affinities and we confronted it with methods of the state of the art. It stood out from it that the package was qualitatively better than the existing methods.

Mots clés en français :comptage,protéine,algorithmes,enzymes,design,computationel
Mots clés en anglais :   counting,protein,algorithms,enzymes,design,computational