Soutenance de thèse de Théo DEFONTAINE

Prévision des crues par apprentissage automatique à différentes échéances: Effet des données restreintes et hétérogènes


Titre anglais : Flood forecast using machine learning at various lead times: effect of scarce and heterogeneous datasets
Ecole Doctorale : SDU2E - Sciences de l'Univers, de l'Environnement et de l'Espace
Spécialité : Surfaces et interfaces continentales, Hydrologie
Etablissement : Institut National Polytechnique de Toulouse
Unité de recherche : UMR 5318 - CECI - Climat, Environnement, Couplages et Incertitudes / CERFACS
Direction de thèse : Sophie RICCI- Corentin LAPEYRE


Cette soutenance a eu lieu vendredi 24 mai 2024 à 10h00
Adresse de la soutenance : Cerfacs, 42 avenue Gaspard Coriolis, 31100 Toulouse, France - salle Salle de conférence JCA

devant le jury composé de :
Sophie RICCI   Chercheuse senior   CERFACS   Directeur de thèse
Valérie BORRELL ESTUPINA   Maîtresse de conférences   Université de Montpellier   Rapporteur
Nabil EL MOCAYD   Assistant professor   Université Mohamed VI Polytechnique   Rapporteur
Didier LUCOR   Directeur de recherche   CNRS île-de-France Gif-sur-Yvette   Président
Nicolas BOUSQUET   Ingénieur de recherche   EDF R&D   Examinateur
Olivier THUAL   Professeur émérite   Toulouse INP   Examinateur


Résumé de la thèse en français :  

En France, les services de prévision de crues sont une entité assez récente. Les données qu'ils ont à disposition ainsi que les modèles utilisés sont eux-aussi récents. Il y a plusieurs initiatives qui sont menées aux échelles locales, régionales et nationales pour répondre aux différents besoins sur le territoire. On peut notamment citer des efforts d'harmonisation des modèles de prévision. Mais aussi des efforts de renouvellement et de veille des techniques. Les services publics territoriaux travaillent ainsi conjointement avec les organismes de recherche pour améliorer la prévision de crue aux différentes échelles.
En prévision de crues, les modèles les plus utilisés sont pour la plupart issus de modèles physiques. Ceux-ci peuvent prendre de multiples formes. Les plus précis vont résoudre les équations de Barré de Saint Venant finement. Il faut alors disposer de données précises sur le domaine d'étude. D'autres, moins précis, font des simplifications ou remplacent tout ou partie de ces équations. Tous ces modèles sont calibrés empiriquement par l'hydrologue pour chaque bassin versant. Certains sont très simples et ont peu de paramètres à caler. Ils sont cependant limités dans leur représentation du bassin versant. C'est le cas de modèles empiriques basés sur des décalages d'hydrogrammes. Le calage de ces modèles est fait empirique par l'hydrologue, pour chaque nouveau cas d'étude. C'est ce qu'utilise le Service de Prévision des Crues Garonne-Tarn-Lot pour la prévision de crues à la station de Toulouse Pont Neuf. Ces modèles fonctionnent avec les informations des stations amont, pour des échéances 4h, 6h et 8h.
Comme dans de nombreux domaines, les approches d'apprentissage automatique par la donnée sont de plus en plus utilisées. L'hydrologie et la prévision de crues ne sont pas des cas particuliers. Cette thèse aborde l'utilisation de modèles d'apprentissage automatique pour la prévision de crues à court terme. Pour la prévision de crues à Toulouse, chaque échéance nécessite la calibration d'un nouveau modèle. Les modèles d'apprentissage automatique permettent de se libérer de ces processus supervisés par l'hydrologue.
Les choix de modèles d'apprentissage automatique possibles sont ici déterminés par la petite taille de la base de données. On ne travaille qu'avec des évènements de crues. Ils sont peu nombreux à être numériquement disponibles. La taille de la base de données force certaines mesures adaptatives.
On n'utilise par ailleurs que des chroniques temporelles de données (pas de données spatialisées). Les modèles d'apprentissage automatique sont utilisés avec les mêmes données que les modèles empiriques. Les modèles d'apprentissage sont une régression linéaire, un régresseur par renforcement de gradient et un perceptron multicouches, tous achroniques (pas d'ordre temporel des données d'entrée). Les données de débit puis de pluies sont donc prétraitées (décalages d'hydrogrammes, moyennes mobiles, etc.) pour intégrer de l'information temporelle avant d'être passées aux modèles.
Les modèles sont d'abord expérimentés à 6h d'échéance, avec différentes configurations des données d'entrée. Avec la même configuration que le modèle du service de prévision de crues, les performances sont meilleures. L'ajout des pluies a un effet positif, mais moins significatif. À 8h d'échéance, on n'utilise pas de référence, les modèles obtiennent des performances convenables. L'apport des données de pluies est plus difficile à valoriser, mais plus important. Le transfert de l'approche à un nouveau cas plus complexe est réussi. Il reste encore améliorable et d'autres approches plus souples pourraient être explorées.

 
Résumé de la thèse en anglais:  

In France, flood forecasting services are a fairly recent entity. The data they have available and the models they use are also recent. A number of initiatives are being taken at local, regional and national levels to meet the different needs of the territory. These include efforts to harmonize forecasting models. But also efforts to renew and monitor techniques. In this way, local public services work jointly with research organizations to improve flood forecasting at different scales.
In flood forecasting, most of the models used are based on physical models. These can take many forms. The most accurate ones will solve the Shallow Water equations in great detail. This requires precise data on the study area. Others, less precise, simplify or replace all or part of these equations. All these models are empirically calibrated by the hydrologist for each catchment. Some are very simple, with few parameters to calibrate. They are, however, limited in their representation of the catchment. This is the case for empirical models based on single hydraulic reach. These models are calibrated empirically, for each new case study. This is what the Garonne-Tarn-Lot Flood Forecasting Service uses for flood forecasting at the Toulouse Pont Neuf station. These models work with information from upstream stations, for 4h, 6h and 8h lead-times.
As in many fields, data-driven machine learning approaches are becoming increasingly popular. Hydrology and flood forecasting are no special cases. This thesis discusses the use of machine learning models for short-term flood forecasting. For flood forecasting in Toulouse, each forecast period requires the calibration of a new model. Machine-learning models free us from these expert-supervised processes.
The choice of possible machine learning models is determined here by the small size of the database. We only work with flood events. There are only a few events numerically available. The scarcity of the dataset forces us to take adapted measures to ensure a more robust approach.
We therefore only use temporal chronicles of data (no spatialized data). Machine learning models are used with the same data as empirical models. The learning models are a Linear Regression, a Gradient Boosting Regressor and a MultiLayer Perceptron, each of which cannot take ordered data as inputs. Flow and rainfall data are therefore pre-processed (hydrograph shifts, moving averages, etc.) to incorporate temporal information before being passed to the models.
The models are first tested with a 6h lead-time, with different input data configurations. With the same configuration as the flood forecasting service model, performance was better. The addition of rainfall data has a positive, but less significant effect. At 8h lead-time, when no reference is used, the models achieve decent performances. The contribution of rainfall data is more difficult to evaluate, but more significant. The transfer of the approach to a new, more complex case is here considered successful. There is still much room for improvement, and other more flexible approaches could be explored.

Mots clés en français :Prévision de crues, Apprentissage automatique, Intelligence Artificielle, Réseaux de Neurones, apprentissage profond, modèles de crues à court terme,
Mots clés en anglais :   Flood forecasting, Machine Learning, Artificial Intelligence, Neural networks, Deep learning, short-term flood forecasting,