Soutenance de thèse de Dawa DERKSEN

Classification contextuelle de gros volumes de données d'imagerie satellitaire pour la production de cartes d'occupation des sols sur de grandes étendues


Titre anglais : Contextual classification of large volumes of satellite imagery data for the production of land occupation maps over wide areas
Ecole Doctorale : SDU2E - Sciences de l'Univers, de l'Environnement et de l'Espace
Spécialité : Surfaces et interfaces continentales, Hydrologie
Etablissement : Université de Toulouse
Unité de recherche : UMR 5126 - CESBIO - Centre d'Etudes Spatiales de la BIOsphère
Direction de thèse : Jordi INGLADA


Cette soutenance a eu lieu lundi 02 décembre 2019 à 10h30
Adresse de la soutenance : CESBIO, 18 Avenue Edouard Belin, 31401 Toulouse - salle Salle de Conférences

devant le jury composé de :
Jordi INGLADA   CR1   Université Toulouse III - Paul Sabatier   Directeur de thèse
Gabriele MöSER   Associate Professor   University of Genoa   Rapporteur
Sébastien LEFèVRE   Professeur des Universités   Université Bretagne Sud   Rapporteur
Florence TUPIN   Professeur   Télécom Paris   Examinateur
Eric CESCHIA   Directeur de Recherche   INRA   Examinateur
Silvia VALERO-VALBUENA   Maître de Conférences   Université Paul Sabatier   Examinateur


Résumé de la thèse en français :  

L'occupation des sols est définie comme la description de la nature et de l'usage anthropique de la surface de la Terre. Une connaissance fiable et à jour de celle-ci est d'un grand intérêt pour de nombreuses applications, par exemple, le développement urbain, le climat, ou pour la détection d'évènements catastrophiques (feux de forêt, inondations, etc.). Actuellement, la plupart des cartes d'occupation des sols sont produites à partir d'images satellitaires, par exemple, les séries temporelles multi-spectrales de Sentinel-2. Ces observations régulières au cours de l'année saisonnale permettent d'identifier les classes agricoles, qui sont caractérisées par un comportement temporel particulier. De plus, ces images sont capturées à une résolution spatiale de 10m, ce qui permet de voir de nombreux éléments du paysage, comme les routes, les rivières, et certains bâtiments isolés. D'un point de vue cartographique, une haute résolution spatiale permet une détection plus fine des contours des objets principaux dans l'image, et de voir de plus petits objets. Par exemple, les mosaïques mono-dates d'images à Très Haute Résolution Spatiale, comme celles de SPOT-7 à 1.50m, capturent les ruelles et les voitures.

Pour produire une carte à partir d'images satellitaires, l'approche "manuelle" qui consiste à identifier chaque pixel d'une image à l'aide de connaissance experte, comme pour Corine Land Cover (CLC), est limitée par une durée de mise à jour trop longue (6 ans pour CLC).

Certains algorithmes de /classification supervisée/ sont conçus pour étiqueter rapidement les éléments d'un jeu de données à partir d'un ensemble d'exemples connus au préalable. La production de la carte OSO se fait tous les ans depuis 2016 à l'aide d'un classifieur supervisé.

Une des difficultés rencontrées pour celle-ci est la différentiation de certaines classes qui dépendent plus du contexte du pixel que de son contenu. C'est le cas pour les classes urbaines, (urbain dense/urbain diffus), où la distinction ne se fait pas au niveau des primitives décrivant le pixel, mais de certaines propriétés dans son voisinage.

L'objectif de la thèse est donc de concevoir et de comparer plusieurs méthodes de prise en compte du voisinage des pixels, pour améliorer la qualité des cartes d'occupation des sols.

La définition de ce voisinage (sa forme) peut varier du voisinage carré à l'objet, en passant par le superpixel, qui est un intermédiaire entre les deux. Ces segments sont adaptatifs au voisinage, mais sont contraints au niveau de leur taille.

Ensuite, pour décrire le contenu du voisinage, deux familles de méthodes existent: les approches dites de /primitives contextuelles/, et les approches dites de /modélisation/. Dans le premier cas, il s'agit de calculer certains descripteurs du contexte, comme la texture ou la forme. Dans le deuxième cas, le contexte entier est fourni au modèle, qui peut alors être conçu pour appréhender les éléments géométriques de l'image. C'est le cas des Deep Convolutional Neural Networks (D-CNN).

Cette thèse présente une nouvelle méthode de prise en compte du contexte, qui consiste à calculer une primitive particulière: l'histogramme des classes dans dans un voisinage. En partant d'une classification des pixels, on peut alors itérer plusieurs étapes de classification successives, qui recalculent les histogrammes à l'aide des classifications précédentes.

Sur deux jeux d'expériences très différents (Sentinel-2 et SPOT-7), on observe que les méthodes D-CNN fournissent des cartes avec une qualité géométrique dégradée par rapport aux primitives contextuelles. Cela se traduit par un arrondissage des coins et une déformation des éléments fins. En terme de précision thématique, on observe une divergence dans les conclusions. Dans le cas Sentinel-2, l'utilisation des histogrammes des classes fournit un résultat statistiquement équivalent au D-CNN, tandis que sur le cas SPOT-7, les D-CNN ont une meilleure performance.

 
Résumé de la thèse en anglais:  

Land cover mapping is defined as the description of the nature and use of the surface of the Earth. A reliable, up-to-date knowledge of this is of a great interest for many applications. For example, urban development, climate, or catastrophic event detection (forest fires, floods, etc.). Today, most land cover maps are produced using satellite imagery, for instance, the multi-spectral time series of the Sentinel-2 satellite. These regular observations along the seasons are key for identifying agricultural classes, which are characterized by a particular temporal behavior. Moreover, these images are taken with a High Spatial Resolution (HSR) of 10m, which allows for many elements of the landscape such as roads, rivers, and isolated buildings to be seen. From a cartographic point of view, a high spatial resolution allows a finer delineation of the contours of the main objects in the image, and also allows the smallest among them to be seen. For example, mono-date mosaics at a Very High Spatial Resolution (VHSR) of 1.50m, such as the ones produced by SPOT-7, can spot out streets and cars.

To produce a land cover map from satellite imagery, the "manual" approach, that consists in identifying each pixel from an image using expert knowledge, as is done for Corine Land Cover, is limited by the long update time it implies (6 years for CLC).

Thankfully, certain /supervised classification/ algorithms have long since been designed to rapidly label the elements of a data set, using a set of already labeled samples. The production of the OSO map, which covers France, is done every year since 2016 using a supervised classifier.

One of the difficulties that comes forth is the discrimination of classes that depend more on the context of the pixel than on its content. This is the case for urban cover classes (discontinuous/continuous urban fabric), where the difference does not lie in the pixel features, but rather in certain properties of the neighborhood.

The objective of this Ph.D. is therefore to compare several methods of contextual inclusion, in order to improve the quality of land cover maps.

The standard definitions of the neighborhood (its shape) are the sliding window, and the object, however, an interesting intermediary representation is studied here: the superpixel. These segments are adaptive to local neighborhood, but have constraints on their size.

Then, in order to describe the contents of the neighborhood, there are two main ways in which to proceed/, using a set of /contextual features/, or using a /model-based/ approach. In the first case, certain descriptors of the neighborhood such as texture or shape are calculated. In the second case, the entire context is provided to the model, which can therefore be designed to apprehend the geometric elements in the image. This is the case of Deep Convolutional Neural Networks (D-CNN).

This Ph.D. presents a new method for contextual inclusion, which consists in calculating the histogram of predicted classes in the neighborhood. Starting with a pixel-based classification, it becomes possible to iterate several successive steps of classification, which recalculate the histograms using the previous classifications.

On two very different sets of experiments (Sentinel-2 and SPOT-7), it appears that the D-CNN provide maps with a lower geometric quality compared to contextual features. This translates as a rounding of the sharp corners, and a deformation or erasing of the fine elements. In terms of class recognition, the conclusions diverge. In the Sentinel-2 case, the use of class histograms provides a statistically equivalent class accuracy to D-CNN, whereas on the SPOT-7 case, the D-CNN have a higher class recognition rate.

Mots clés en français :Classification, Imagerie, Gros volumes de données, Segmentation, Superpixel,
Mots clés en anglais :   Classification, Imagery, Big data, Segmentation, Superpixel,