Introduction à la théorie des valeurs extrêmes : calcul d’une canicule centennale avec Python

C’est que déterminer la température maximale qui peut être rencontrée à un endroit est un exercice plus compliqué qu’il n’y parait…

Dans ce tutoriel, nous allons essayer de comprendre pourquoi puis voir quelles est la principale méthode employée aujourd’hui pour déterminer la probabilité et la sévérité d’événements extrêmes à partir de données limitées.

Température maximale : une approche naïve

A priori, la façon la plus simple de savoir quelle est la température maximale que l’on peut rencontrer à un endroit est de regarder les températures les plus élevées qui ont été atteintes dans le passé.

Série de température maximale journalière

Les événements extrêmes sont rares…

Pourquoi alors ne pas prendre un quantile plus élevé ? par exemple dernier millile, qui n’a été atteint que 0.01% des jours sur la période 1991–2020 ?

  • Si on calcule le dernier millile avant 2003, on obtient 37.2°C. Valeur largement dépassée pendant la canicule de 2003 avec un maximum de 40°C.
  • Si on refait le calcul avant 2019, on obtient 39.4°C. Valeur là encore dépassée pendant la canicule de 2019 avec un record de 41.9°C.

Les systèmes critiques sont plutôt dimensionnés sur un événement centennal (probabilité d’occurrence de 1% par an), millénal (0.1% par an) voire, par exemple dans l’industrie nucléaire, décamillénal (0.01% par an).

Les événements extrêmes, par définition, sont rares. C’est bien le problème : il est pratiquement impossible d’obtenir une série de données assez longue pour les évaluer avec précision.

Théorie des valeurs extrêmes

En réalité, les méthodes classiques de statistiques et de probabilité sont destinées à étudier le probable. Or, dans notre cas, c’est l’improbable que l’on souhaite quantifier.

Mise au point au milieu du XXe siècle, l’analyse des valeurs extrêmes a été largement utilisée en hydrologie, en ingénierie ou en finance avant de trouver dans les années 2000 un nouveau champ d’application dans la climatologie.

Le principe général de l’analyse consiste à isoler dans une série d’observations les valeurs extrêmes puis à les utiliser pour construire la queue de la distribution de probabilité. Cette distribution servira ensuite à calculer la probabilité d’événements trop rares pour être représentés de façon fiable dans l’échantillon initial.

identification des extrêmes et distribution théorique

Reprenons notre série de température et commençons par identifier ses valeurs extrêmes. Il existe deux approches pour cela :

  • Par bloc : on découpe l’échantillon en blocs (souvent une année) et on prend la valeur maximale de chaque bloc
  • Par seuil : on prend les valeurs supérieures à un certain seuil en respectant une distance minimale entre deux valeurs pour assurer leur indépendance (par exemple si le seuil est dépassé plusieurs fois pendant une même vague de chaleur on ne prend que la valeur la plus élevée).
Histogramme des maximas de température pour l’analyse des extrêmes par bloc
Application du théorème de Fisher-Tippett-Gnedenko : loi des valeurs extrêmes généralisée ajustée à des extremas de température.

Calcul des temps de retour

Représentons maintenant l’histogramme cumulé des extrêmes et la fonction de répartition de la GEV :

Théorie des valeurs extrêmes : fonction de répartition de la GEV et fréquence des événements
Analyse des valeurs extrêmes : représentation de la température maximale en fonction du temps de retour.
  • Temps de retour de 5 ans : 37.7°C
  • Temps de retour de 10 ans : 38.9°C
  • Temps de retour de 20 ans : 40.0°C
  • Temps de retour de 50 ans : 41.2°C
  • Temps de retour de 100 ans : 42.1°C

Quelques recommandations de prudence…

La méthode que l’on vient de détailler est largement utilisée pour l’évaluation des risques climatiques physiques dans l’industrie, l’assurance ou l’aménagement. Cependant les résultats doivent être interprétés avec prudence.

C’est une autre limite de ces extrapolations : calculer un événement centennal, ce n’est pas savoir ce qu’il va se passer sur le siècle à venir.

D’abord parce qu’un temps de retour ne signifie pas que l’événement doit se produire exactement une fois par période : il peut très bien ne pas se produire ou se produire plusieurs fois. Il est préférable d’interpréter les temps de retour comme une probabilité annuelle : par exemple un temps de retour de 10 ans signifie que la probabilité annuelle est de 10%.

--

--

Start-up spécialisée dans l’exploitation des données climatiques, Callendar vous aide à prendre les bonnes décisions partout où le climat actuel et futur compte

Love podcasts or audiobooks? Learn on the go with our new app.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store
Callendar

Callendar

27 Followers

Start-up spécialisée dans l’exploitation des données climatiques, Callendar vous aide à prendre les bonnes décisions partout où le climat actuel et futur compte