Soutenance de thèse de Ryan BOUSTANY

Entraînement des réseaux profonds : complexité, robustesse de la rétropropagation non lisse et algorithmes inertiels


Titre anglais : On deep network training: complexity, robustness of nonsmooth backpropagation, and inertial algorithms
Ecole Doctorale : EDMITT - Ecole Doctorale Mathématiques, Informatique et Télécommunications de Toulouse
Spécialité : Mathématiques et Applications
Etablissement : Université Toulouse 1 Capitole
Unité de recherche : UMR 5314 - TSE-R - Toulouse School of Economics - Recherche
Direction de thèse : Jérome BOLTE- Edouard PAUWELS


Cette soutenance a eu lieu lundi 31 mars 2025 à 14h30
Adresse de la soutenance : Toulouse School of Economics 1, Esplanade de l'université 31080 Toulouse cedex 06 - salle Amphi

devant le jury composé de :
Jérome BOLTE   Professeur   Université Toulouse 1 Capitole   Directeur de thèse
Audrey REPETTI   Associate Professor   Heriot-Watt University   Rapporteur
Peter OCHS   Professeur   Saarland University   Rapporteur
Edouard PAUWELS   Professeur   Toulouse School of Economics   CoDirecteur de thèse
Samir ADLY   Full professor   Laboratoire XLIM-DMI, Université de Limoges   Rapporteur
Pierre ABLIN   Ingénieur de recherche   Apple, ex CNRS   Examinateur


Résumé de la thèse en français :  

L'apprentissage basé sur les réseaux neuronaux repose sur l'utilisation combinée de techniques d'optimisation non convexe de premier ordre, d'approximation par sous-échantillonnage, et de différentiation algorithmique, qui est l'application numérique automatisée du calcul différentiel. Ces méthodes sont fondamentales pour les bibliothèques informatiques modernes telles que TensorFlow, PyTorch et JAX. Cependant, ces bibliothèques utilisent la différentiation algorithmique au-delà de leur cadre primaire sur les opérations différentiables de base. Souvent, les modèles intègrent des fonctions d'activation non différentiables comme ReLU ou des dérivées généralisées pour des objets complexes (solutions à des problèmes de sous-optimisation). Par conséquent, comprendre le comportement de la différentiation algorithmique et son impact sur l'apprentissage est devenu un enjeu clé dans la communauté de l'apprentissage automatique. Pour aborder cela, un nouveau concept de différentiation non lisse, appelé gradients conservatifs, a été développé pour modéliser la différentiation algorithmique non lisse dans les contextes d'apprentissage modernes. Ce concept facilite également la formulation de garanties d'apprentissage et la stabilité des algorithmes dans les réseaux neuronaux profonds tels qu'ils sont pratiquement implémentés.

Dans ce contexte, nous proposons deux extensions du calcul conservatif, trouvant une large gamme d'applications dans l'apprentissage automatique. Le premier résultat fournit un modèle simple pour estimer les coûts computationnels des modes backward et forward de la différentiation algorithmique pour une large classe de programmes non lisses. Un deuxième résultat se concentre sur la fiabilité de la différentiation automatique pour les réseaux neuronaux non lisses opérant avec des nombres en virgule flottante. Enfin, nous nous concentrons sur la construction d'un nouvel algorithme d'optimisation exploitant uniquement des informations de second ordre en utilisant la différentiation automatique non lisse non convexe de premier ordre bruitée. Partant d'un système dynamique (une équation différentielle ordinaire), nous construisons INNAprop, dérivé d'une combinaison d'INNA et de RMSprop.

 
Résumé de la thèse en anglais:  

Learning based on neural networks relies on the combined use of first-order non-convex optimization techniques, subsampling approximation, and algorithmic differentiation, which is the automated numerical application of differential calculus. These methods are fundamental to modern computing libraries such as TensorFlow, PyTorch and JAX. However, these libraries use algorithmic differentiation beyond their primary focus on basic differentiable operations. Often, models incorporate non-differentiable activation functions like ReLU or generalized derivatives for complex objects (solutions to sub-optimization problems). Consequently, understanding the behavior of algorithmic differentiation and its impact on learning has emerged as a key issue in the machine learning community. To address this, a new concept of nonsmooth differentiation, called conservative gradients, has been developed to model nonsmooth algorithmic differentiation in modern learning contexts. This concept also facilitates the formulation of learning guarantees and the stability of algorithms in deep neural networks as they are practically implemented.

In this context, we propose two extensions of the conservative calculus, finding a wide range of applications in machine learning. The first result provides a simple model to estimate the computational costs of the backward and forward modes of algorithmic differentiation for a wide class of nonsmooth programs. A second result focuses on the reliability of automatic differentiation for nonsmooth neural networks operating with floating-point numbers. Finally, we focus on building a new optimizer algorithm exploiting second-order information only using noisy first-order nonsmooth nonconvex automatic differentiation. Starting from a dynamical system (an ordinary differential equation), we build INNAprop, derived from a combination of INNA and RMSprop.

Mots clés en français :Optimisation, Réseaux de neurones, Différentiation algorithmique,
Mots clés en anglais :   Optimization, Neural networks, Automatic differentiation,