3. DATA : structurer, traiter et rendre accessibles les données environnementales

Le projet DATA organise, fiabilise et rend accessibles les données environnementales mobilisées dans le programme JUNON. Il met en place les infrastructures et les méthodes qui structurent la circulation des données scientifiques, depuis leur production jusqu’à leur exploitation dans les modèles et les jumeaux numériques.

Les données exploitées proviennent des projets EAU et SOL/AIR. Ceux-ci produisent des observations de terrain, des séries de mesures, des données satellitaires, ainsi que des résultats de modélisation et d’algorithmes d’analyse. Le projet DATA prend en charge la collecte, la structuration et la documentation de ces informations afin de faciliter leur partage, leur interrogation et leur réutilisation dans les étapes suivantes du programme, au sein des projets PREDICTION et JUMEAUX NUMÉRIQUES.

Schéma du projet DATA

Anouk Fronzes, BRGM

DATA développe également des dispositifs de catalogage et d’interrogation des données à travers des interfaces de programmation donnant accès aux jeux de données et aux services de traitement. Ces outils facilitent l’identification et l’exploitation d’informations variées, qu’il s’agisse de données hydrologiques, climatiques, géologiques ou plus largement environnementales.

DATA participe également à l’organisation de la chaîne de traitement des données scientifiques. Des outils d’orchestration décrivent et exécutent les différentes étapes de traitement, depuis l’acquisition des données jusqu’à la production de résultats exploitables. Chaque étape est enregistrée et documentée, afin d’assurer la traçabilité des analyses et la reproductibilité des résultats.

Organisation et interopérabilité des données

Les données environnementales sont produites dans une grande diversité de formats, car issues d’instruments, de modèles ou d’infrastructures scientifiques différents. Les travaux menés dans DATA consistent à harmoniser ces informations afin de les rendre comparables et utilisables ensemble.

Cette organisation repose sur plusieurs principes :

la description systématique des données à l’aide de métadonnées, qui précisent leur origine, leur méthode de production, leur période d’acquisition, leur unité de mesure ou encore leur niveau de traitement ;
l’harmonisation et la standardisation des données, qui consistent à organiser des données issues de sources hétérogènes selon des formats et des structures communs afin de permettre leur comparaison et leur analyse conjointe ;
l’interopérabilité des données, grâce à laquelle différents logiciels, modèles ou plateformes peuvent exploiter les mêmes jeux de données et les intégrer plus facilement dans leurs traitements.

Les recherches portent également sur le profilage automatique des données. Il s’agit d’identifier et de structurer des informations exploitables à partir de sources initialement peu ou pas structurées. Dans cette perspective, une distinction claire est maintenue entre les données brutes issues des instruments ou des simulations et celles qui sont effectivement mobilisées dans les analyses scientifiques. Les chaînes de traitement permettent ainsi de passer des premières aux secondes de manière documentée et reproductible.

Les données structurées peuvent ensuite être organisées sous forme de cubes de données. Ces structures croisent plusieurs dimensions (par exemple l’espace, le temps et différentes variables environnementales) et facilitent l’analyse de grands ensembles de données spatio-temporelles ainsi que l’étude de l’évolution des phénomènes environnementaux.

L’ensemble de ces activités relève du data engineering appliqué aux données scientifiques, avec une attention particulière portée à la qualité des données, à la traçabilité des traitements et à la reproductibilité des analyses.

Représentation des connaissances

Une autre composante du projet concerne la représentation des connaissances afin d’améliorer l’accès aux données environnementales. Ces travaux s’appuient sur l’utilisation d’ontologies, qui décrivent de manière formelle les relations entre les concepts d’un domaine scientifique (par exemple entre variables environnementales, milieux naturels ou processus étudiés).

De tels modèles facilitent :

la recherche d’informations dans les bases de données ;
l’interprétation des requêtes des utilisateurs en tenant compte des synonymes, des proximités de sens ou des relations entre concepts ;
l’analyse et l’exploration de jeux de données complexes.

À terme, ces développements doivent conduire à la mise en place d’interfaces intelligentes capables d’accompagner les utilisateurs dans leurs requêtes. Ces outils peuvent aider à formuler des questions, à identifier les jeux de données pertinents et à naviguer dans des ensembles de données environnementales parfois très volumineux, y compris pour des utilisateurs non spécialistes.

Cette approche contribue plus largement à améliorer l’interaction entre les utilisateurs, les données et les outils de modélisation mobilisés dans le programme.

Donner accès aux données

Une fois les données identifiées, structurées et rendues accessibles, DATA développe également des outils destinés à leur exploration et à leur valorisation.

Ces travaux comprennent :

Des outils d’exploration et d’analyse de données spatio-temporelles, permettant d’interroger et d’examiner les jeux de données environnementales ;
des dispositifs de restitution et de visualisation des résultats, tels que des tableaux de bord ou des formes de data storytelling destinées à rendre les analyses lisibles ;
des interfaces d’accès aux données et aux analyses, adaptées à différents profils d’utilisateurs, depuis les chercheurs jusqu’aux acteurs de la gestion environnementale.

Ces dispositifs permettent de suivre l’évolution des phénomènes étudiés et d’actualiser les analyses à mesure que de nouvelles données deviennent disponibles. Ils jouent également un rôle important dans l’interface avec les jumeaux numériques du programme JUNON, en facilitant l’accès aux données et l’interprétation des résultats issus des modèles et des simulations.

Responsable scientifique :

Yann Dantal : Projet DATA

Direction du Numérique pour les Géosciences, Unité Plateformes Scientifiques du BRGM
Chef de projet Grande Infrastructure de Recherche

BRGM, 3 avenue Claude Guillemin, BP36009
45100 Orléans
France

Email:

y.dantal@brgm.fr