Soutenance de thèse de RACHID EL MONTASSIR

Approche hybride basée sur la physique et l'IA pour l'advection des champs de probabilités. Application à la prévision immédiate de la couverture nuageuse


Titre anglais : Hybrid physics- and AI-based approach to probability field advection. Application to cloud cover nowcasting
Ecole Doctorale : SDU2E - Sciences de l'Univers, de l'Environnement et de l'Espace
Spécialité : Océan, Atmosphère, Climat
Etablissement : Université de Toulouse
Unité de recherche : UMR 5318 - CECI - Climat, Environnement, Couplages et Incertitudes / CERFACS
Direction de thèse : Olivier PANNEKOUCKE- Corentin LAPEYRE


Cette soutenance a eu lieu mardi 26 novembre 2024 à 14h00
Adresse de la soutenance : CERFACS, 42 av. Gaspard Coriolis, 31100 Toulouse - salle JCA

devant le jury composé de :
Olivier PANNEKOUCKE   ITM   École nationale de météorologie   Directeur de thèse
Fabrice GAMBOA   Professeur des universités   Université Toulouse III - Paul Sabatier   Président
Guillaume BALARAC   Professeur des universités   Grenoble INP   Examinateur
François FLEURET   Professeur   Université de Genève   Rapporteur
Guillaume GASTINEAU   Maître de conférences   Sorbonne université   Rapporteur
Sidonie LEFEBVRE   Ingénieure de recherche   ONERA   Examinateur


Résumé de la thèse en français :  

Au cours des dernières décennies, le réchauffement climatique s'est accéléré, tout comme la fréquence des événements météorologiques extrêmes, affectant considérablement les sociétés et les économies. Ces événements soulignent le besoin croissant de prévisions météorologiques précises. Les modèles traditionnels de prévision numérique du temps, bien qu'efficaces, restent coûteux en termes de calcul et peinent à prédire les phénomènes à petite échelle tels que les orages. Parallèlement, les modèles d'apprentissage profond se sont révélés prometteurs dans les prévisions météorologiques, mais manquent souvent de cohérence physique et de capacités de généralisation.
Cette thèse aborde les limites des méthodes traditionnelles d'apprentissage profond dans la production de résultats réalistes et physiquement cohérents qui peuvent se généraliser à des données non vues. Dans cette thèse, nous explorons des méthodes hybrides qui cherchent à concilier la précision des méthodes de premier principe avec la puissance d'exploitation des données des techniques d'apprentissage, avec une application à la prévision immédiate de la couverture nuageuse. Les données de couverture nuageuse utilisées sont des images satellites avec classification des types de nuages, et l'objectif est de prédire la position de la couverture nuageuse au cours des deux prochaines heures tout en préservant la classification des types de nuages.
L'approche proposée, nommée HyPhAICC, impose un comportement physique basé sur l'advection probabiliste. Dans le premier modèle, dénommé HyPhAICC-1, des dynamiques d'advection multi-niveaux sont utilisées pour guider l'apprentissage d'un modèle U-Net. Cela est réalisé en résolvant l'équation d'advection pour plusieurs champs de probabilité, chacun correspondant à un type de nuage différent, tout en apprenant simultanément le champ de vitesse inconnu.
Nos expériences montrent que la formulation hybride surpasse non seulement le modèle d'imagerie extrapolée d'EUMETSAT (EXIM), mais également le modèle U-Net en termes de métriques standard telles que le score F1, l'indice de succès critique (CSI) et l'accuracy. Nous démontrons également que le modèle HyPhAICC-1 préserve plus de détails et produit des résultats plus réalistes par rapport au modèle U-Net. Pour mesurer quantitativement cet aspect, nous utilisons une version modifiée de la distance de Hausdorf qui est, à notre connaissance, la première fois que cette métrique est utilisée à cette fin dans la littérature. Cette première version montre aussi une convergence remarquablement rapide. Elle a également affiché de meilleures performances par rapport au U-Net lorsqu'elle a été entraînée sur des ensembles de données plus petits, soulignant l'efficacité computationnelle de l'approche proposée.
Un autre modèle, dénommé HyPhAICC-2, ajoute un terme source à l'équation d'advection. Bien que cela ait dégradé le rendu visuel, il a affiché les meilleures performances en termes d'accuracy. Ces résultats suggèrent que l'architecture hybride physique-IA proposée constitue une solution prometteuse pour surmonter les limitations des méthodes d'IA traditionnelles. Cela pourrait motiver des recherches supplémentaires pour combiner les connaissances physiques avec les modèles d'apprentissage profond afin d'améliorer la précision et l'efficacité des prévisions météorologiques.

 
Résumé de la thèse en anglais:  

During the last decades, as the global warming has accelerated, so has the frequency of extreme weather events, significantly affecting societies and the economies. These events highlight the growing need for accurate weather forecasting. Traditional numerical weather prediction models, while effective, remain computationally expensive and struggle to predict small-scale phenomena such as thunderstorms. Meanwhile, deep learning models have shown promise in weather forecasting but often lack physical consistency and generalisation capabilities.
This thesis addresses the limitations of traditional deep learning methods in producing realistic and physically consistent results that can generalise to unseen data. In this thesis, we explore hybrid methods that seek to reconcile the accuracy of first-principle methods with the data-leveraging power of learning techniques, with an application to cloud cover nowcasting. The cloud cover data used are satellite images with cloud type classification, and the goal is to predict the cloud cover position over the next two hours while preserving the classification of the cloud types.
The proposed approach, named HyPhAICC, enforces physical behaviour based on probability advection. In the first model, denoted HyPhAICC-1, multi-level advection dynamics are used to guide the learning of a U-Net model. This is achieved by solving the advection equation for multiple probability fields, each corresponding to a different cloud type, while simultaneously learning the unknown velocity field.
Our experiments show that the hybrid formulation outperforms not only the EUMETSAT Extrapolated Imagery model (EXIM) but also the U-Net model in terms of standard metrics such as F1 score, Critical Success Index (CSI), and accuracy. We also demonstrate that the HyPhAICC-1 model preserves more details and produces more realistic results compared to the U-Net model. To quantitatively measure this aspect, we use a modified version of the Hausdorff distance which is, to the best of our knowledge, the first time this metric is used for this purpose in the literature. This first version shows also a significant faster convergence. It also performed significantly better compared to the U-Net when trained on smaller datasets, highlighting the computational efficiency of the proposed approach.
Another model, denoted HyPhAICC-2, adds a source term to the advection equation. While this impaired the visual rendering, it displayed the best performance in terms of accuracy.
These results suggest that the proposed hybrid Physics-AI architecture provides a promising solution to overcome the limitations of traditional AI methods. This could motivate further research to combine physical knowledge with deep learning models for more accurate and efficient weather forecasting.

Mots clés en français :Apprentissage profond, Modélisation hybride, Couverture nuageuse, Advection de probabilités, Apprentissage machine informé par la physique,
Mots clés en anglais :   Deep Learning, Hybrid modelling, Cloud cover, Probability advection, Physics-informed machine learning,