La cartographie précise et à jour des surfaces continentales est un enjeu majeur pour le suivi et l'atténuation du dérèglement climatique. Depuis une dizaine d'années, des missions d'observation de la Terre (OT) fournissent fréquemment des images multispectrales à haute résolution. Pour exploiter les séries temporelles d'images satellites (STIS) qui en résultent, les réseaux de neurones profonds sont de plus en plus utilisés. Néanmoins, ces méthodes nécessitent un grand nombre de données étiquetées pour l'entraînement, limitant leur application à grande échelle. Par ailleurs, les méthodes proposées sont souvent conçues pour une tâche spécifique, ce qui entraîne une prolifération de modèles mono-tâches.
Pour surmonter ces obstacles, un intérêt croissant est porté au développement de modèles de fondation (MF). Capables de traiter des données provenant de différents capteurs et de fournir des représentations pertinentes pour un grand nombre de tâches souffrant d'un manque d'étiquettes, les MFs visent à faciliter et à homogénéiser le traitement des STIS. Un aspect crucial au développement de MFs est la phase pré-entraînement, où des stratégies d'apprentissage autosupervisées sont utilisées pour entraîner le MF sur de grands jeux de données non étiquetées. Actuellement, bien que des tentatives de MF en OT aient été annoncées, dans la pratique, elles ne répondent pas aux besoins spécifiques du suivi des surfaces continentales ni ne prennent en compte les caractéristiques des STIS. Dans cette thèse, nous souhaitons ouvrir la voie à de tels MFs. Nous considérons que ces modèles doivent être capables de gérer des STIS multimodaux et fournir des représentations à la fois faciles à utiliser et génériques. Tout d'abord, le terme "facile à utiliser" fait référence au fait que ces représentations servent de base pour les communautés du climat et des géosciences. Ainsi, les représentations de STIS doivent préserver la résolution spatiale, être de taille fixe, être alignées et être suffisamment informatives pour que les MFs n'aient pas besoin d'être entraînés sur les tâches en aval. Deuxièmement, des "représentations génériques" signifie qu'elles sont pertinentes dans diverses configurations temporelles et géographiques, ainsi que dans différentes tâches en aval.
Dans cette thèse, nous abordons trois défis qui ralentissent la production de représentations faciles à utiliser et génériques qui sont : la conception d'architectures de réseaux de neurones, la définition de stratégies d'apprentissage autosupervisé et le manque de jeux de données disponibles pour le pré-entraînement et l'évaluation des MFs.
Étant donné les nombreux défis existants, cette thèse n'aboutit pas à la création d'un modèle de fondation. En revanche, trois encodeurs de STIS ont été construits, chacun représentant une nouvelle étape vers un MF. D'importantes contributions ont été apportées en termes d’architecture de réseaux de neurones profonds adaptés aux STIS. Basé sur l'architecture Transformers, le réseau spectro-spatio-temporel finalement proposé génère des représentations alignées et de taille fixe de STIS multimodales irrégulières et non alignées. Deuxièmement, nous avons exploré et appliqué des stratégies autosupervisées provenant de deux grandes familles : les autoencodeurs masqués et les approches discriminatives. Pour exploiter les avantages des deux approches, nous avons étudié des stratégies hybrides les combinant. Troisièmement, pour évaluer la généricité des représentations, les encodeurs proposés ont été évalués sur trois tâches en aval différentes : la segmentation des cultures, la cartographie dense de l'occupation des sols et la détection de changements. Cette dernière tâche a été rendue possible grâce à un jeu de données construit pour l'occasion. Enfin, deux jeux de données de STIS à grande échelle, dédiés au pré-entrainement, ont été produits. Le plus grand des deux contient des STIS multimodales sur plusieurs années à travers l'Europe. |
Up-to-date and precise mapping of the Earth's surface is critical for monitoring and mitigating the effects of global warming. For about a decade, Earth Observation (EO) missions provide frequently high-resolution multispectral imagery of the entire globe. To exploit the resulting Satellite Image Time Series (SITS), Deep Neural Networks (DNN) have become increasingly popular. Nonetheless, these methods face significant limitations. First, they require large amounts of labeled data for training, limiting their scalability across diverse geographic regions and time periods. Second, proposed DNN are often designed for a specific task, leading to a proliferation of single-task models.
To address these challenges, there is growing interest in developing foundation models (FMs) for land monitoring. FMs aim to facilitate and homogenize the processing of EO data as they are capable of processing data from different sensors and providing input data representations relevant to numerous tasks suffering from a scarcity of labels. A critical aspect of developing FMs is the pre-training stage, which often relies on self-supervised learning (SSL) strategies to train the model on large scale unlabeled datasets. Although initial attempts of FMs for land monitoring have been announced, in practice they do not meet the specific needs of land monitoring, nor do they take into account the specificities of the SITS.
In this thesis, we aim to pave the way for foundation models for land monitoring using SITS. We consider that these models must be capable of handling multimodal SITS and of generating representations that are both generic and easy to use. The term "easy-to-use" refers to the fact that these representations serve as a basis for the climate and geosciences communities. Thus, the representations must preserve spatial resolution, be of fixed size, aligned and sufficiently informative so that the FMs do not need to be fine-tuned for downstream tasks. Secondly, generic representations mean that they are relevant for multiple temporal and geographical configurations, as well as in various downstream tasks. In this thesis, we address three key challenges that slow down the production of easy-to-use and generic representations: DNNs architecture conception, SSL strategies definition and the lack of available datasets for both pre-training and evaluating FMs.
Given the remaining gaps in existing methods, this thesis does not lead to the creation of a FM, but rather to large scale pre-trained SITS representation encoders. In particular, three different SITS encoders have been proposed, each representing different steps in the way to FM. Firstly, major contributions have been made to the DNN architecture adapted to SITS. Based on the recent transformer architecture, the final multimodal spectro-spatio-temporal DNN proposed, generates aligned and fixed-size representations of irregular and unaligned SITS. Secondly, we explored and applied SSL strategies from two main SSL families: masked Autoencoders and instance discrimination. To leverage the strengths of both approaches, we have particularly studied their combination into hybrid pre-training strategies. Thirdly, to assess the genericity of the learned representations, the proposed SITS encoders were evaluated on three different downstream tasks: crop segmentation, dense land cover mapping, and change detection. The latter task was made possible by a custom-built dataset. Lastly, two large-scale SITS unlabeled datasets, dedicated to pre-training, have been produced. The larger of the two contains multi-year multimodal SITS across Europe. |