Partager la publication "Etude Données Hospitalières Covid-19 – V"
Cet article fait suite à notre série d’articles sur le comparatif des départements dans le traitement de la Covid19 en milieu hospitalier et notamment du taux de décès par hospitalisations.
L’article précédent est disponible à l’adresse https://www.anakeyn.com/2020/07/03/etude-donnees-hospitalieres-covid-19-iv/
Dans cet article nous allons introduire des données de santé sur les populations par département, pour voir si ces données peuvent jouer dans nos modèles.
Comme pour nos études précédentes, les fichiers originaux de Santé Publique France sont disponibles aux adresses suivantes : https://www.data.gouv.fr/fr/datasets/donnees-hospitalieres-relatives-a-lepidemie-de-covid-19/ pour les données hospitalières et https://www.data.gouv.fr/fr/datasets/donnees-des-urgences-hospitalieres-et-de-sos-medecins-relatives-a-lepidemie-de-covid-19/ pour les données des urgences (et aussi de SOS Médecins)
Comme d’habitude, et comme ces données changent quotidiennement, nous avons créé une archive avec aussi nos données intermédiaires et nos données de travail disponible dans notre boutique à l’adresse : https://www.anakeyn.com/boutique/produit/donnees-etude-covid19-au-17-07-20/.
Pour des raisons de cohérence, cette étude porte sur les données de France Métropolitaine.
Cette étude porte sur 103717 hospitalisations et 19496 décès à l’hôpital en France Métropolitaine pour Covid19.
Le taux de décès cumulés sur les hospitalisations cumulés s’établit à 18,80 % en moyenne sur la période du 18/03 Au 17/07/2020.
Au préalable, et pour répondre à une question d’actualité concernant la résurgence de l’épidémie que nous avions constatée légèrement pour les tests PCR (https://www.anakeyn.com/2020/07/14/etude-donnees-tests-pcr-covid-19-i/) et plus nettement pour les Actes SOS Médecins (https://www.anakeyn.com/2020/07/10/etude-donnees-sos-medecins-covid-19-i/) nous allons voir si cette résurgence est visible dans les données hospitalières.
Nouvelles Hospitalisations et Réanimations à l’hôpital.
Hospitalisations
De loin, on peut voir une belle courbe descendante depuis le début de l’épidémie.
Regardons pour le mois de juillet.
Sur les derniers jours on voit une stabilisation des nouvelles hospitalisations autour de 60 cas par jour. Pour l’instant il n’y a pas de remontée mais on verra dans les jours suivants comment cela évolue.
Réanimations
Comme pour les hospitalisations la courbe est très rassurante de loin.
Regardons pour début juillet :
Comme pour les hospitalisations, le nombre de nouveaux cas de réanimations semble s’être stabilisé entre 5 et 10. C’est très peu mais ce n’est pas nul.
Passages aux Urgences
Passages aux urgences pour Corona
Après une belle courbe qui retombe, on peut voir une légère remontée pour ces derniers jours.
Regardons depuis début juin :
Après un minimum de 103 passages pour motif de Covid19 le 21 juin la courbe remonte légèrement et dépasse les 200 depuis plusieurs jours.
Hospitalisations pour Covid19 depuis les urgences
La courbe retombe bien, on ne voit pas de remontée pour l’instant.
Regardons depuis début juin :
La courbe continue à baisser jusque début juillet, puis semble se stabiliser autour de 50 hospitalisations par jour.
En conclusion sur cette partie, s’il y a effectivement une remontée légère des cas, ceux-ci n’ont pas du être considérés comme suffisamment graves pour justifier des hospitalisations. A suivre donc dans les prochains jours.
Hospitalisés et en réanimation
Hospitalisés
Le nombre e personne actuellement hospitalisées continue de baisser même si c’est un peu moins rapide depuis quelques jours.
En réanimation
Idem pour les réanimations, toujours en baisse mais un peu moins rapidement.
Il n’y a donc pas de risque de saturation des hôpitaux à court terme.
Sexe
Hospitalisés
Au début de l’épidémie la proportion de femmes hospitalisées était nettement plus faible.
En réanimation
La différence entre les hommes et les femmes est encore plus nette en ce qui concerne les personnes en réanimation.
Taux de décès sur la période
Comme on l’a déjà constaté par ailleurs le taux de décès des hommes est plus de 4 points supérieur à celui des femmes.
Départements
Taux de Décès vs hospitalisations par départements
Comme on peut le voir, des différences notables existent entre les départements : Cela va de 29,62% pour le Cher à 4 % pour la Lozère !
Rappel : Le but de nos études est justement de savoir si ces différences proviennent de facteurs externes (Age, sexe, santé, saturation …) ou de facteurs internes aux hôpitaux.
Regardons les départements les plus peuplés
S’il est assez logique de voir les départements qui ont été les moins touchés par l’épidémie avec un bon score, on voit que certains s’en sortent plutôt bien compte tenu du contexte, comme par exemple les Yvelines, et d’autres moins bien comme par exemple les Alpes-Maritimes.
Comparons les proportions de Tx de décès vs Tx H/F (échelles de pourcentage)
Curieusement, quand on compare les Tx de Décès avec les Tx H/F il semble que les départements hospitalisant plus d’hommes en proportion ont moins de décès, ce qui peut être contre-intuitif.
Age Moyen
Dans cette étude nous allons repartir sur l’âge moyen calculé à partir des fichiers « sursaud… » sans recadrer pour des raisons de facilité.
Age Moyen selon les départements
Comme on l’a déjà constaté, l’âge moyen d’hospitalisation via les urgences varie beaucoup selon les départements : de 77 ans pour les Hautes-Pyrénées à 47,66 ans pour la Haute-Corse (quoique pour la Corse on a relevé précédemment beaucoup d’anomalies dans les données).
Départements les plus peuplés :
L’amplitude est moins forte mais tout de même de 10 ans entre l’Isère (67,88 ans) et la Seine-Maritime (57,91 ans). On remarque que l’on a beaucoup de département de la région parisienne avec des âges d’hospitalisation assez jeunes.
Taux de réanimations vs hospitalisations cumulées
Ce taux peut indiquer un état de santé plus ou moins grave des hospitalisés. Attention! à l’inverse il peut aussi indiquer une indisponibilité des lits de Réa.
Départements Métropolitains
Encore une fois les différences sont très importantes de 54,9 % en Tarn-et-Garonne et 9,17% dans l’Eure. Attention toutefois aux effets de petits échantillons.
Départements les plus peuplés
Les différences sont toujours marquées même pour les départements importants. On voit que la Haute-Garonne 37,6 % et la Gironde 25,46 % qui ont peu été touchées on un taux de réanimation plus élevés que par exemple la Moselle 14,4 %. On peut se poser la question si c’est un choix thérapeutique ou une conséquence du manque de lits.
Taux d’occupation des Lits
Il s’agit des lits de départ avant le Covid19.
Comme d’habitude les différences sont importantes, le Val-d’Oise et la Seine-Saint-Denis ont été particulièrement touchés alors que la Charente et la Haute-Vienne on été assez épargnées.
Regardons pour les départements les plus peuplés
On voit bien que la Haute-Garonne et la Gironde ont été peu touchées.
Taux d’occupation des Lits de Réanimation
Il s’agit des lits de réanimation disponibles avant l’épisode de Covid19
Le taux de saturation des lits de réanimation est moins élevé pour les départements les plus touchés que pour les lits en général.
Départements les plus peuplés
On retrouve plus ou moins la même distribution que pour les Lits.
1ere Analyse via Machine Learning dans Dataiku
Dans cette première analyse nous allons reprendre les mêmes variables explicatives que précédemment :
- La Date
- Le taux de réanimations par hospitalisations cumulées
- la proportion d’hommes (Données SI-VIC)
- L’age moyen des hospitalisés (données « sursaud »)
- Le taux de réanimations par rapport au nombre de lits de réanimation avant l’épidémie.
- Le taux d’hospitalisations par rapport au nombre de lits d’hôpitaux avant l’épidémie.
Les résultats de l’analyse sont les suivants :
Encore une fois c’est Random Forest qui donne le meilleur R2 : 0,928
Regardons l’Erreur vs le Modèle pour les départements les plus peuplés :
Comme précédemment on retrouve les Bouches-du-Rhône parmi les meilleurs des grands départements, la Seine-Maritime, souvent mal classée et Paris vers le milieu.
2ème Analyse via Machine Learning dans Dataiku : ajout d’un facteur de santé de la population par département.
Nous avons récupéré des données de santé publique sur le site de l’Assurance Maladie (ameli.fr) à l’adresse : https://www.ameli.fr/l-assurance-maladie/statistiques-et-publications/etudes-en-sante-publique/cartographie-des-pathologies-et-des-depenses/effectifs-par-age-sexe-region-et-departement/effectifs-departementaux-par-pathologie-sexe-age.php
Notamment le fichier : « Effectifs_departementaux_par_pathologie_sexe_et_age_en_2017.xls«
Nous avons aussi récupéré des informations sur les facteurs de comorbidités dans le cadre du *Covid19″ d’une étude italienne à l’adresse : https://www.statista.com/statistics/1110949/common-comorbidities-in-covid-19-deceased-patients-in-italy/
Puis, nous avons créé des indices de santé pondérés en fonctions des pathologies et des facteurs de comorbidité pour les hommes et les femmes que vous pouvez récupérer dans le fichier « Indices_Sante_Dep_2017.xls«
Nous avons ensuite calculé dans Dataiku un indice de santé pondéré global en fonction du nombre d’hommes et de femmes hospitalisés par départements.
Cet indice de santé pondéré global a été ajouté comme facteur à notre analyse de Machine Learning.
Profitons en pour voir l’indice de santé pondéré selon les départements : attention plus l’indice est élevé moins la santé est bonne :
La Nièvre et l’Allier présentent les risques les plus importants et la Haute-Savoie et l’Ile-et-Vilaine les plus faibles.
Pour les départements les plus peuplés
De nombreux départements de la région parisienne présentent un état de santé meilleur vis-à-vis du Covid19. Le Rhône aussi. Les bouches-du-Rhône ne présentent pas une santé très bonne, à priori. Les moins bien lotis étant plutôt au Nord.
Les résultats de l’analyse sont les suivants :
Encore une fois c’est Random Forest qui obtient le meilleur score.
Random Forest R2 : 0.955
Importance des variables
Mise à part la date, l’indice de santé est le facteur le plus important qui explique le modèle. Ce qui montre que c’est bien une variable intéressante.
Comparatif des départements
On retrouve la Lozère et L’Ariège comme bons élèves et le Cher et la Vienne comme mauvais.
Départements les plus peuplés
Si l’on compare par rapport à l’analyse sans indice de Santé, globalement on constate que l’on conserve les mêmes départements dans le meilleur groupe : Pas de Calais, Essonne, Bouches-du-Rhône, Haute-Garonne et Isère étaient les mêmes précédemment mais dans un autre ordre.
En revanche la Seine-Saint-Denis qui était en position 6 précédemment se retrouve en 2ème plus mauvaise, et Paris qui étaient en 7ème se retrouve en 4ème.
XGBoost R2 : 0.952
le R2 pour XGBoost est assez proche de celui pour Random Forest
Importance des Variables :
XGBoost donne souvent un ordre d’importance des variables différent de Random Forest. Toutefois, ici on retrouve l’indice de Santé Globale comme une variable très importante.
Comparatif des départements
On retrouve une nouvelle fois la Lozère et l’Ariège comme bons élèves. De l’autre côté on a une nouvelle fois la Vienne et cette fois les Deux-Sèvres comme moins bon.
Départements les plus peuplés
Dans ce modèle, la Loire atlantique qui était déjà la moins bien classée avec Random Forest se détache encore plus. De l’autre côté encore une fois les Bouches-du-Rhône sont le bon élève.
Gradient Boosted Trees R2 : 0.852
Importance des variables :
Comme pour Random Forest, on retrouve L’indice de Santé Globale et le tx de réanimations vs Hospitalisations comme facteur importants après la date. Ensuite l’ordre des facteurs est modifié.
Comparatif des départements :
On retrouve le département des Deux-Sèvres comme mauvais élève, devancé cette fois par la Corse-du-Sud. La Lozère et l’Ariège restent les bons élèves.
Départements les plus peuplés :
On retrouve la Loire-Atlantique du mauvais côté et les Bouches-du-Rhône du bon. Cette fois la Seine-Saint-Denis fait mieux que Paris.
Extra Trees R2 : 0.749
Importance des Variables
Cette fois l’indice de santé globale n’est pas dans le top 3 des facteurs importants.
Comparatif des départements
Encore une fois on retrouve le Cher et la Corse-du-Sud comme mauvais élèves et l’Ariège et la Lozère comme bons.
Départements les plus peuplés
Cette fois c’est la Moselle qui fait le plus mauvais score, suivi par les Alpes-Maritime. Dans ce modèle La Seine-Saint-Denis fait mieux que Paris. Pour les bons élèves encore une fois les Bouches-du-Rhône et la Gironde.
Ordinary Least Square R2 : 0.429 :
Comme le R2 n’est pas terrible, regardons les autres coefficients et notamment le coefficient de Pearson :
Avec 0,66 pour le coefficient de Pearson on peut admettre qu’il y a une certaine corrélation entre les données en entrée et le Taux de décès par hospitalisations.
Coefficient de régressions :
Comme nous sommes dans un modèle linéaire on peut obtenir les coefficients de régression pour chacune des variables.
Ici aussi l’indice de Santé générale n’est pas le facteur le plus important. Comme on l’a déjà constaté, le Taux d’occupation des lits de Réanimations est inversement proportionnel au Taux de décès, ce qui peut paraître contrintuitif. I.e. moins les services de réanimations sont saturés plus il y a de décès !!!! Il doit y avoir l’intervention d’une autre variable.
Comparatif des départements
Toujours les mêmes : le Cher et la Corse-du-Sud dans les mauvais élèves et la Lozère et l’Ariège dans les bons.
Départements les plus peuplés
Cette fois c’est Paris qui fait le plus mauvais score, suivi de la Moselle. De l’autre côté on retrouve encore une fois les Bouches-du-Rhône et la Haute-Garonne.
Conclusion sur cette Partie
Le fait de rajouter l’état de santé moyen dans le département, n’apporte pas de grands changements par rapport à se que nous avions constaté précédemment.
Cela a même accentué la différence entre les Bouches-du-Rhône et la région parisienne dont la santé est normalement meilleure pour cette dernière. Il apparait donc que l’on a été mieux soigné dans les Bouches-du-Rhône.
En ce qui concerne la différence entre Paris et la Seine-Saint-Denis, cela varie selon les modèles, on ne peut pas réellement conclure que l’on soit moins bien soigné en Seine-Saint-Denis par rapport à Paris.
Toutefois il faut bien noter qu’il s’agit d’une santé moyenne des populations par départements et non pas de la santé des personnes hospitalisées dont nous n’avons pas les éléments.
A Bientôt
Pierre