Site icon Anakeyn

Etude Données Hospitalières Covid-19 – III

Cette partie fait suite à l’article https://www.anakeyn.com/2020/06/11/etude-donnees-hospitalieres-covid-19-ii/.

Comme les deux articles précédents nous nous sommes basés sur les données fournies par Santé Publique France relatives au Covid-19. Dans cette partie les données vont du 18 mars au 15 juin.

Nous nous sommes concentrés cette fois sur l’âge qui était disponible dans le fichier « donnees-hospitalieres-classe-age-covid19-2020-06-15-19h00.csv » que nous avons fait correspondre avec le fichier de données globales « donnees-hospitalieres-covid19-2020-06-15-19h00.csv« .

A priori, ces données sur l’âge devraient être plus cohérentes avec les autres données issues de la même source que celles dans les fichiers « sursaud…« . Malheureusement ces données sont agrégées par régions et non pas départements.

Vous pouvez télécharger gratuitement tous les fichiers nécessaires afin de reproduire notre étude à l’adresse : https://www.anakeyn.com/boutique/produit/donnees-etude-covid19-au-15-06-20/

Cette étude porte sur 102793 hospitalisations et 19032 décès. Le taux de décès cumulés vs hospitalisations cumulés est donc en moyenne de 18,51%.

Le fichier qui contient les données finales est « covid19_2020_06_15_GRAMML.xlsx« 

Evolution des hospitalisations et réanimations en France du 18 mars au 15 juin 2020.

Les hospitalisations et les réanimations continuent à décroitre tranquillement.

Taux de décès vs hospitalisations par régions

Bien que cela soit plus écrasé qu’avec les départements les taux de décès varient beaucoup selon les régions de 18,40 % pour le Grand Est à moins de 1% pour la Réunion.

En métropole le taux de décès le plus bas est en PACA.

Avant d’aller plus loin vérifions la qualité des données sur l’âge :

Complétude de l’âge :

Le calcul est fait à partir de données disponibles dans le fichier « covid19-2020-06-15-Age-Cumul-Prop.xlsx« 

Il y a quand même des erreurs de cohérences importantes pour certaines régions, cela dépasse 6% pour la Martinique.

Comparons avec les données « sursaud… » sur la même période

Les données sont dans le fichier « covid19-2020-06-15-REG-URG-CUMUL.xlsx« 

Il n’y a quasiment pas d’erreurs avec les données « sursaud… ». A peine 0.01 % pour la région 11 (Île-de-France) et 0.004 % pour la région 44 (Grand-Est)

Age Moyen d’hospitalisation par régions.

L’âge moyen d’hospitalisation varie aussi beaucoup d’une région à l’autre notamment en ce qui concerne la Guyane, Mayotte et Le Réunion. Pour la métropole PACA présente l’âge le plus bas 64,42 ans et le Centre-Val-de-Loire le plus élevé 71,30 ans.

Age Moyen des décès par régions métropolitaines.

La région avec la moyenne d’âge la plus élevée sont les Pays de Loire 83 % et la moins élevée l’Île-de-France 77 %. Y-aurait-il une spécificité en région Parisienne ? la deuxième région avec l’âge le plus bas, la Normandie, étant 2 point au dessus : 79%.

On remarque par ailleurs que si PACA présente l’âge moyen d’hospitalisation le plus bas en métropole 64,42 ans, l’âge moyen de décès se situe dans la moyenne à 81,11 ans.

Regardons cela de plus près avec un nuage de points :

Age Moyen des hospitalisations vs Taux de décès par hospitalisations par régions métropolitaines

Sur ce graphique il apparait que le taux de décès est fonction de l’âge d’hospitalisation. PACA que l’on trouve à gauche du graphique bénéficie de ce fait d’un taux de décès plus faible.

Analyses via Machine Learning dans Dataiku : Avec Age Moyen.

Pour déterminer des modèles concernant le Taux décès par hospitalisations cumulées Nous avons pris des variables explicatives équivalentes à nos précédentes études à savoir :

La machine donne les résultats globaux suivants :

Random Forest réalise le meilleur score R2 : 0.986

Random Forest : Score R2 : 0.986

Variables importantes :

Après le taux de réanimation c’est l’âge moyen qui apparait comme un facteur important dans le modèle.

Erreur vs modèle :

Cette fois c’est Auvergne-Rhône-Alpes qui est le mieux placé et les Hauts-de-France le moins bien. PACA se trouvent maintenant plus vers le milieu. Un effet du à l’âge dont la mesure est différente.

XGBoost : Score R2 : 0.982

Variables importantes :

On retrouve les mêmes variables importantes que pour Random Forest à savoir le taux de réanimations sur les hospitalisations et l’âge moyen.

Erreur vs modèle :

Cette fois c’est le Centre-Val-de-Loire qui est le mieux placé et la Corse la moins bien.

Gradient Boosted Trees : Score R2 : 0.978

Variables importantes :

Toujours les 2 mêmes variables importantes, le taux de réanimations sur les hospitalisations et l’âge moyen

Erreur vs modèle :

Idem, Le Centre-Val-de-Loire est le mieux placé et la Corse la moins bien.

Extra Trees : Score R2 : 0.973

Importance des variables :

Cette fois après la date c’est l’âge moyen qui explique le plus le modèle.

Erreur vs modèle :

On retrouve dans ce modèle, le Centre-Val-de-Loire comme meilleur élève et les Hauts-de-France comme moins bon.

Ordinary Least Squares : Score R2 : 0.898

Coefficients de régression :

Le coefficient positif le plus important est ici l’âge moyen d’hospitalisation. En revanche le Taux de réanimation par million d’habitant à une influence négative, ce qui est contrintuitif. On peut se demander si la variable par million d’habitant a un sens.

Vérifions cela :

Effectivement, le nombre de décès par million d’habitants n’a pas grand chose à voir avec le taux d’équipements en lits de réanimation au départ.

Nous allons donc continuer en supprimant le taux d’hospitalisations journalières pour 1 million d’habitants et le taux de réanimations journalières pour 1 million d’habitants

Analyses via Machine Learning dans Dataiku : Avec Age Moyen sans variables pour 1 millions d’habitants

Nous allons donc garder les variables explicatives suivantes :

Les résultats de l’analyse sont les suivants :

Comme on peut le voir les scores R2 ne sont pas beaucoup plus bas que précédemment, ce qui montre que les variables pour 1 million d’habitants n’apportaient pas beaucoup d’information.

Encore une fois Random Forest a le meilleur score.

Random Forest : Score R2 : 0.972

Importance des variables :

Le taux de Réanimation par rapport aux hospitalisations et l’Age moyen d’hospitalisation sont ici des variables importantes.

Comme précédemment on retrouve Centre-Val-de-Loire comme bon élève et les Hauts-de-France comme mauvais. Par ailleurs c’est la première fois que l’on constate que PACA fait moins bien que l’Île-de-France. Effet du certainement à la mesure d’âge différente.

Conclusion provisoire :

Dans cette partie nous avons constaté 2 choses importantes :

Le fait que l’âge de décès est plus faible pour l’île-de-France (77 ans) que pour les autres régions métropolitaines. Ceci pourrait-il indiquer des pathologies particulières ?

Le fait d’utiliser une autre source pour l’âge et de travailler avec un Age Moyen a chamboulé l’importance des variables et les classements de régions.

Il y a par ailleurs des erreurs de cohérence dans les données sur l’âge et nous n’avons pas d’information départementale pour ces données.

Nous étudions cela dans la suite de nos articles : https://www.anakeyn.com/2020/07/03/etude-donnees-hospitalieres-covid-19-iv/

Quitter la version mobile