Chercheur en « Descente d'échelle (downscaling) climatique à haute résolution spatiale par apprentissage machine génératif » (H/F)

CNRS

  • Guyancourt, Yvelines
  • CDD
  • Temps-plein
  • Il y a 15 jours
Le développement d'approches statistiques/machine learning pour le downscaling à l'échelle kilométrique sera la principale mission du poste.Pour différentes variables climatiques (température, précipitation, vent, etc.) l'objectif principal sera d'apprendre la relation d'échelle « observée », par exemple entre des réanalyses à grande échelle en tant que prédicteurs, et la référence observationnelle à l'échelle locale (par exemple, les stations ou les réanalyses à haute résolution). Une fois calibrée statistiquement, cette relation sera appliquée aux prédicteurs à grande échelle issus des modèles climatiques (ESMs) pour générer des simulations régionalisées (c-à-d., à plus fine résolution) pour des périodes passées, présentes et futures, sous différents scénarios. Ici, la relation apprise peut cependant être perturbée par les biais potentiels du forçage ESM, même dans des conditions historiques. De plus, l'apprentissage est - par construction - limité à la période observationnelle.Il sera donc nécessaire d'étudier l'incertitude de ces simulations ainsi que sa propagation dans un contexte de changement climatique où à la fois les prédicteurs (c'est-à-dire les informations à grande échelle en entrée) et les prédictants (c'est-à-dire les variables à l'échelle locale à simuler) sont censés changer.Une autre mission consistera à développer des approches hybrides, telles que des émulateurs de modèles climatiques à l'échelle kilométrique qui combinent les modèles dynamiques et les approches de machine learning. Ici, le machine learning permettra d'émuler le lien entre les prédicteurs à grande échelle et les prédicteurs à haute résolution tels qu'ils sont représentés dans le modèle dynamique à haute résolution. Une telle approche reproduit les principales propriétés (sensibilité, structures spatiales, etc.) des RCMs à émuler, à moindre coût computationnel.
Elle peut être calibrée (c'est-à-dire apprise) en incluant à la fois des simulations historiques et futures, selon plusieurs scénarios à la fois et en des lieux peu ou mal représentés dans les données observationnelles (terrain complexe, pays en développement).
De plus, cette approche ouvre la voie à une large gamme de prédicteurs généralement absents dans les ensembles de données observationnelles. Ainsi, l'approche d'émulation offre une opportunité majeure d'explorer, à faible coût, la plage d'incertitude des projections climatiques locales.Dans les deux cas, des méthodes « génératives » devront être mises en place et un aspect clé sera l'étude des incertitudes. Ainsi, bien que leurs objectifs, les données pour la calibration et donc les contraintes soient différentes, les deux approches sont relativement similaires d'un point de vue technique, car elles impliquent les mêmes types de machine learning et de méthodologies statistiques. De plus, la question de la cohérence entre variables régionalisées/émulées sera d'une grande importance, tant pour le réalisme physique que pour les études d'impacts potentiels où les événements climatiques composés suscitent un intérêt croissant.
  • Explorer un cadre idéalisé, tel qu'une « expérience de modèle parfait », pour étudier la capacité de la méthode ML à apprendre une solution physiquement contrainte qui sera valide dans des scénarios futurs.
c. Optimisation et Adaptation à des régions spécifiques :
  • Proposer et tester des configurations spécifiques de simulations pour optimiser l'entraînement du modèle.
  • Transposer le travail de downscaling à d'autres régions, par ex., la France, avec les données ANASTASIA pour la température et COMEPHORE pour les précipitations
d. Création de jeux de données d'entraînement :
  • Utiliser les ensembles de données créés comme base pour des défis de données ouverts à la communauté afin de tester et de concourir avec leurs méthodes.
3. Étude des incertitudes
a. Exploration et caractérisation de l'incertitude :
  • Explorer et caractériser les diverses sources d'incertitude (socio-économique, épistémique, aléatoire) pour fournir des informations climatiques locales fiables.
  • Déterminer la meilleure façon de combiner les techniques de downscaling dynamique et statistique afin d'explorer ces incertitudes.
  • Produire de vastes ensembles de projections climatiques locales à l'échelle du kilomètre pour différentes variables pertinentes pour les prochaines décennies en utilisant le downscaling statistique et les émulateurs de modèles développés.
b. Quantification de l'incertitude :
  • Collaborer avec Projet Cible 6 de TRACCS pour utiliser les techniques de quantification de l'incertitude (UQ) dans l'entraînement et l'évaluation des différentes méthodes downscaling statistique.
ActivitésPour remplir les missions du poste, les principales activités seront de trois types : Développement méthodologique ; définition de stratégie d'apprentissage ; et étude des incertitudes.1. Développement pour le downscaling statistique et l'émulation de modèles
a) Développement de méthodes d'apprentissage automatique (ML) :
- Cibler en premier lieu la température et les précipitations, puis étendre aux variables telles que le vent, l'humidité, le rayonnement de surface, les éclairs, et la grêle.
- Privilégier les approches « génératives » (stochastiques), telles que les « réseaux antagonistes génératifs » (GAN), les « modèles de diffusion », ou les « flux de normalisation », pour leur potentiel en termes d'adaptation de domaine (c'est-à-dire, le downscaling et la super-résolution).b) Évaluation des modèles de base ou de transfert d'apprentissage :
- Étudier les avancées récentes dans les « modèles de fondation » ou par « transfert d'apprentissage », comme ClimaX (Nguyen et al., 2023), pour déterminer s'ils peuvent constituer une solution à faible coût sans sacrifier significativement la performance pour les tâches météorologiques/climatiques.c) Amélioration des capacités des techniques ML :
- Tester la capacité des techniques ML à traiter plusieurs variables simultanément dans un contexte multivarié.
- Développer de nouvelles méthodes pour mieux prendre en compte les dépendances entre les variables clés.d) Rédaction d'articles scientifiques et Distribution des outils statistiques :
- Rédaction d'articles reprenant les développements, les expériences et les résultats.
- Mise à disposition, en dehors de LOCALISING, des outils statistiques développés en suivant les principes FAIR (Findable, Accessible, Interoperable, Reusable).2. Stratégie d'apprentissage
a) Création de stratégies d'entraînement et de jeux de données :
- Concevoir des stratégies d'entraînement et des ensembles de données adaptés à une production de données climatiques locales fiables à haute résolution.
- Explorer l'utilisation des ensembles de données prêts à l'emploi en ML disponibles dans la communauté climatique, tels que WeatherBench2, ClimateBench et ClimSim.
- Établir une base de données de cartes à haute résolution (HR) et de leurs versions à basse résolution (LR) correspondantes nécessaires pour la tâche de downscaling.
b) Entraînement des modèles :
- Entraîner les modèles à l'aide de données observationnelles sur la période actuelle, en se basant sur des ensembles de données à haute résolution tels que ERA5 Land.
- Explorer un cadre idéalisé, tel qu'une « expérience de modèle parfait », pour étudier la capacité de la méthode ML à apprendre une solution physiquement contrainte qui sera valide dans des scénarios futurs.c) Optimisation et Adaptation à des régions spécifiques :
- Proposer et tester des configurations spécifiques de simulations pour optimiser l'entraînement du modèle.
- Transposer le travail de downscaling à d'autres régions, par ex., la France, avec les données ANASTASIA pour la température et COMEPHORE pour les précipitations
d) Création de jeux de données d'entraînement :
- Utiliser les ensembles de données créés comme base pour des défis de données ouverts à la communauté afin de tester et de concourir avec leurs méthodes.3. Étude des incertitudes
a) Exploration et caractérisation de l'incertitude :
- Explorer et caractériser les diverses sources d'incertitude (socio-économique, épistémique, aléatoire) pour fournir des informations climatiques locales fiables.
- Déterminer la meilleure façon de combiner les techniques de downscaling dynamique et statistique afin d'explorer ces incertitudes.
- Produire de vastes ensembles de projections climatiques locales à l'échelle du kilomètre pour différentes variables pertinentes pour les prochaines décennies en utilisant le downscaling statistique et les émulateurs de modèles développés.b. Quantification de l'incertitude :
- Collaborer avec Projet Cible 6 de TRACCS pour utiliser les techniques de quantification de l'incertitude (UQ) dans l'entraînement et l'évaluation des différentes méthodes downscaling statistique.CompétencesLa personne recrutée devra posséder un doctorat en mathématiques appliquées, climatologie, ou statistiques avec une expérience en machine learning.Compétences techniques indispensables :- Compétences en modélisation statistique ou en apprentissage machine. Une expérience en modèles génératifs serait en plus grandement apprécié
- Connaissances en sciences de climat
- Maîtrise du R et/ou Python
- Compétences en analyse de donnéesCompétences optionnelles appréciées :- Expérience d'analyse/exploitation de données de simulations climatiques type CMIP6
- Expérience de traitement/manipulation de très grands jeux de données
- Connaissance des outils manipulant les fichiers au format NetCDFSavoir-faire :
- Motivation et curiosité scientifique
- Autonomie et sens de l'organisation
- Rigueur dans le développement, la documentation des codes et les tests réalisés
- Anglais scientifique niveau B2 minimumSavoir-être :
- Bon relationnel et sens du travail en équipe
- Disponibilité et réactivitéContexte de travailCe poste s'insère dans le programme de recherches TRACCS (« Transformer la modélisation du climat pour les services climatiques »). Ce programme rassemble la communauté française de modélisation du climat. Ses activités couvrent la compréhension fondamentale des changements climatiques et de leurs impacts et s'étendent jusqu'à l'élaboration de prototypes de services climatiques co-construits par les parties-prenantes et les experts en modélisation du climat. L'enjeu est d'accélérer le développement des modèles de climat pour répondre aux attentes sociétales en termes d'action climatique, notamment dans le domaine de l'adaptation au changement climatique à venir. Le poste proposé s'inscrit dans le projet TRACCS-PC10-LOCALISING, dont l'objectif général est d'élaborer des modèles de systèmes climatiques locaux, multi-composants et entièrement couplés, permettant une représentation du climat à l'échelle du kilomètre et de l'heure et combinant au mieux les modèles dynamiques et les approches statistiques pour caractériser l'incertitude climatique à l'échelle locale.
Le postdoc se déroulera au sein de l'équipe « Extrêmes : Statistiques, Impacts et Régionalisation » (ESTIMR) du « Laboratoire des Sciences du Climat et de l'Environnement » (LSCE), membre de l'« Institut Pierre Simon Laplace » (IPSL), fédération de recherche. Il sera supervisé par deux responsables scientifiques l'un à LSCE et l'autre à IPSL. Des collaborations seront menées avec divers partenaires au sein du projet LOCALISING (Météo-France, Toulouse ; IGE, Grenoble ; etc.) et des missions nationales et internationales sont donc à prévoir.Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.

CNRS