AI4LCC | Une collection de jeux de données en accès libre pour la classification de l’occupation du sol par apprentissage automatique
THEIA publie une collection de jeux de données de référence dédiés à l’entrainement et la validation de méthodes d’intelligence artificielle de classification de l’occupation du sol.
Ces jeux de données sont issus de travaux de recherche menés par les laboratoires LIVE (Université de Strasbourg) et IRIMAS (Université de Haute-Alsace). Par leur apport aux recherches sur l’amélioration de la cartographie des tissus urbains (ANR TIMES 2017-2023 et Projet TOSCA CNES AIM-CEE 2019-2023), ils contribuent au Centre d’Expertise Scientifique THEIA ‘Occupation des Terres’.
Actuellement, la collection (DOI) est constituée de deux jeux de données :
- MultiSenGE, un jeu de données dédié à la classification multi-temporelle et multimodale de la couverture végétale : il présente 8 157 patchs multi-temporels d’images Sentinel-1 et Sentinel-2 (256×256) sur la région Grand-Est (France) pour l’année 2020.
- MultiSenNA, un jeu de données dédié à la classification multi-temporelle et multimodale de la couverture du sol : il contient 12 258 patchs multi-temporels d’images Sentinel-1 et Sentinel-2 (256×256) sur la région Nouvelle-Aquitaine (France).
- En outre, des outils Python utiles sont disponibles sur Github pour extraire des informations sur le jeu de données.
Des jeux de données déjà bien utilisés
Ces jeux de données ont déjà été utilisés dans différents travaux de recherche testant des approches d’apprentissage profond innovantes.
Parmi ceux-ci, Marzi et al. (2023) ont développé une méthode basée sur des convolutions 3D pour la cartographie de l’occupation des sols à partir de données radar Sentinel-1 en s’appuyant sur MultiSenGE. Les travaux de Dumeur et al. (2024a et 2024b) exploitent également ce jeu de données pour la validation de modèles d’apprentissage profond. Le premier article (2024a) présente le modèle U-BARN (Unet-BERT spAtio-temporal Representation eNcoder), une nouvelle architecture qui permet l’apprentissage de représentations spatio-temporelles riches des séries temporelles d’images satellitaires (SITS) grâce à une stratégie d’apprentissage autosupervisé. Le deuxième article (2024b) propose l’approche ALISE (Aligned SITS Encoder), qui traite les séries temporelles irrégulières et non alignées pour les rendre exploitables dans des tâches en aval telles que la segmentation ou la détection de changements.
Enfin, Gremes et al. (2024) ont proposé un système de surveillance orbital, combinant des images Sentinel-2 avec des algorithmes de vision par ordinateur et d’apprentissage automatique. Leur méthode, intitulée NTL-Unet, est dédiée à la détection des pertes non techniques dans les réseaux de distribution d’électricité. MultiSenGE étant l’un des seuls jeux de données délimitant avec précision les zones urbaines avec de l’imagerie Sentinel-2, il a servi d’entrainement initial pour leur modèle puis été appliqué sur le Brésil.
Contact
Anne Puissant
U. de Strasbourg | Live
@A.Puissant
ResearchGate
Contributions FR | EN
Références
LIVE & IRIMAS & THEIA | Data Terra. (2024): Artificial Intelligence benchmark datasets for Land Cover Classification from Satellite Imagery. EOST. (Collection) doi:10.25577/563Q-QD29
Wenger, R., Puissant, A., Weber, J., Idoumghar, L., & Forestier, G. (2022). Multisenge: a multimodal and multitemporal benchmark dataset for land use/land cover remote sensing applications. ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 3, 635-640.
Marzi, D., Jara, J. I. S., & Gamba, P. (2023). A 3D Fully Convolutional Network Approach for Land Cover Mapping using Multitemporal Sentinel-1 SAR Data. IEEE Geoscience and Remote Sensing Letters. 10.1109/LGRS.2023.3332765
Dumeur, I., Valero, S., & Inglada, J. (2024a). Self-supervised spatio-temporal representation learning of Satellite Image Time Series. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing.
Dumeur, I., Valero, S., & Inglada, J. (2024b). Paving the way toward foundation models for irregular and unaligned Satellite Image Time Series. arXiv preprint arXiv:2407.08448.
Gremes, M. F., Gomes, R. C., Heberle, A. U. D., Bergmann, M. A., Ribeiro, L. T., Adamski, J., … & Lima, O. C. D. M. (2024). NTL-Unet: A Satellite-Based Approach for Non-Technical Loss Detection in Electricity Distribution Using Sentinel-2 Imagery and Machine Learning. Sensors, 24(15), 4924.