Cette thèse explore l’application de l’apprentissage automatique (ML) dans deux domaines distincts de la chimie : la conception de solvants eutectiques et la découverte de catalyseurs pour la polymérisation du styrène. Ces deux études de cas illustrent comment les approches fondées sur les données peuvent compléter l’expérimentation et la modélisation traditionnelles, en permettant la modélisation prédictive, l’interprétabilité et la conception générative.
Dans la première application, le travail s’est concentré sur les solvants eutectiques, une classe émergente de mélanges présentant un potentiel comme alternatives durables aux solvants conventionnels. Un nouveau jeu de données expérimentales a été constitué, comprenant 219 mélanges eutectiques et 384 non-eutectiques, ainsi que 1450 mesures de viscosité. Cet ensemble de données prend explicitement en compte la teneur en eau, un paramètre souvent négligé dans la littérature mais essentiel pour les propriétés des solvants. À partir de ces données, des modèles de classification ont été développés pour distinguer les mélanges eutectiques des non-eutectiques, tandis que des modèles de régression prédisaient la viscosité sur un vaste espace chimique. Les modèles ont atteint une grande précision, y compris au-delà du domaine d’entraînement, soulignant leur robustesse et leur utilité potentielle pour la conception pratique de solvants. Des techniques d’explicabilité ont ensuite été appliquées afin de mettre en évidence les paramètres structuraux qui gouvernent la formation eutectique et la viscosité. Ces analyses ont renforcé la confiance dans les modèles et ont fourni des pistes pour leur amélioration ainsi que pour l’orientation des expériences.
La seconde application a porté sur l’utilisation du ML pour la conception de catalyseurs destinés à la polymérisation du styrène. Les modèles ont été entraînés à prédire les énergies de coordination et les barrières d’activation pour la première insertion du monomère, sur un ensemble de 32 complexes de métaux de transition. Malgré la petite taille du jeu de données, les modèles ont reproduit avec une grande précision les résultats de la chimie quantique. Au-delà des tâches prédictives, le cadre a été étendu à la conception générative : des valeurs énergétiques cibles ont été définies, et les modèles ont identifié les combinaisons optimales de caractéristiques structurales globales compatibles avec ces objectifs. Ces « règles de conception » ont ensuite été traduites en ligands chimiquement pertinents, dont plusieurs ont été validés par des calculs de chimie quantique supplémentaires. Des méthodes d’IA explicable ont apporté un éclairage supplémentaire en révélant comment les facteurs stériques et électroniques influencent les énergies de coordination et d’activation, couplant ainsi performance prédictive et interprétation mécanistique.
En reliant prédiction, explication et conception générative, cette thèse met en évidence le potentiel transformateur du ML en chimie. Pour les solvants, il permet l’identification et l’évaluation systématiques de mélanges eutectiques, guidant la recherche d’alternatives plus vertes. Pour la catalyse, il soutient la conception rationnelle de complexes de métaux de transition en reliant des descripteurs énergétiques à des motifs structuraux. Dans leur ensemble, ces travaux montrent comment le ML peut réduire la dépendance à l’égard de calculs et d’expériences coûteux, en offrant des éclairages physiquement pertinents. Ils posent également les bases de développements futurs, tels que l’identification de solvants eutectiques profonds naturels à faible viscosité, ou la conception de catalyseurs efficaces pour des classes plus larges de réactions de polymérisation.
À travers ces contributions, la thèse illustre que le ML n’est pas seulement un outil prédictif, mais également un cadre pour la découverte, capable d’accélérer l’innovation chimique tout en approfondissant la compréhension mécanistique. |
This thesis explores the application of machine learning (ML) in two distinct areas of chemistry: eutectic solvent design and catalyst discovery for styrene polymerization. Both case studies demonstrate how data-driven approaches can complement traditional experimentation and computation by enabling predictive modeling, interpretability, and generative design.
In the first application, the work focused on eutectic solvents, an emerging class of mixtures with potential as sustainable alternatives to conventional solvents. A new experimental dataset was assembled, comprising 219 eutectic and 384 non-eutectic mixtures alongside 1450 viscosity measurements. Importantly, this dataset explicitly accounted for water content, a parameter often neglected in the literature but critical to solvent properties. Based on these data, classification models were developed to distinguish eutectic from non-eutectic mixtures, while regression models predicted viscosity across a broad chemical space. The models achieved high accuracy, even beyond the training domain, underscoring their robustness and potential utility in practical solvent design. Explainability techniques were further applied to uncover the structural parameters that govern eutectic formation and viscosity. These insights not only enhanced confidence in the models but also provided guidelines for refining them and for guiding experiments.
The second application investigated the use of ML in catalyst design for styrene polymerization. Here, the models were trained to predict coordination energies and activation barriers for the first monomer insertion across a set of 32 transition-metal complexes. Despite the small dataset, the models reproduced quantum-chemical energetics with high accuracy. Beyond predictive tasks, the framework was extended to generative design: target energetic values were defined, and the models identified optimal combinations of global structural features consistent with these targets. These “design rules” were then mapped back to chemically meaningful ligand candidates, several of which were validated by additional quantum-chemical calculations. Explainable AI methods provided further insights by revealing how steric and electronic factors shape coordination and activation energies, thus coupling predictive performance with mechanistic interpretability.
By bridging prediction, explanation, and generative design, this thesis demonstrates the transformative potential of ML in chemistry. In solvents, it enables systematic identification and evaluation of eutectic mixtures, guiding the search for green alternatives. In catalysis, it supports rational design of transition-metal complexes by linking energetic descriptors to structural motifs. Taken together, these studies show how ML can reduce reliance on costly computations and experiments, while still offering physically meaningful insights. Importantly, they lay the foundation for future extensions, such as the identification of low-viscosity natural deep eutectic solvents or the design of efficient catalyst scaffolds for broader classes of polymerization reactions.
Through these contributions, the thesis illustrates that ML is not only a predictive tool but also a framework for discovery, capable of accelerating chemical innovation while deepening mechanistic understanding. |