Partager la publication "Etude Données Hospitalières Covid-19 – IV"
Cet article fait suite à notre article précédent https://www.anakeyn.com/2020/06/18/etude-donnees-hospitalieres-covid-19-iii/
Comme pour les articles précédents, nous nous sommes basés sur les données fournies par Santé Publique France relatives au Covid-19. Dans cette partie les données vont du 18 mars au 1er juillet 2020.
Vous pouvez télécharger gratuitement dans notre boutique tous les fichiers nécessaires afin de reproduire notre étude à l’adresse : https://www.anakeyn.com/boutique/produit/donnees-etude-covid19-au-01-07-20/
Les graphiques et les analyses sont réalisés avec l’outil Dataiku DSS.
Précédemment nous avions constaté des incohérences au niveau des classes d’âges dans les fichiers « donnees-hospitalieres-classe-age-covid19….csv » (source SI-VIC), notamment que les données étaient incomplètes ou trop complètes dans certaines régions.
Les nouvelles données confirment ce constat :
Par exemple en Martinique il manque près de 7% d’information sur l’âge et à Mayotte il y en a près de 3 % en plus. nous reviendrons la dessus par la suite.
Cette étude porte sur 104177 hospitalisations et 19344 décès. Le taux de décès moyen à l’hôpital en France s’établit donc à 18,57 % sur la période.
Evolution des hospitalisations et réanimations en France du 18 mars au 1er juillet 2020.
Au niveau global la courbe continue de baisser cependant pour certains régions d’outre-mer les choses semblent plus difficiles :
Guyane
Après une baisse due au confinement l’épidémie est repartie de façon exponentielle en Guyane. Un effet dû certainement à la proximité avec le Brésil et d’autres pays d’Amérique du Sud.
Mayotte
A Mayotte, la courbe des hospitalisations semble rester sur un plateau, en espérant que cela ne reparte pas à la hausse à la faveur du développement du virus en Afrique ?
La Réunion
Après un chute importante durant le confinement, la courbe est un peu remontée avant de redescendre légèrement. Un déconfinement trop tôt ?
Martinique
Pour la Martinique on assiste à un léger rebond depuis le 15 juin. A suivre…
Guadeloupe
Légère remontée aussi pour la Guadeloupe depuis le 24 juin.
Comparatifs des âges par régions
Moyenne d’âge des hospitalisations
La moyenne d’âge est plus basse dans les régions d’Outre-Mer. En métropole c’est la Corse et PACA qui présentent des moyennes d’âges les plus basse. L’île-de-France avec 67,7 ans n’est pas si éloignée de PACA avec 67,1.
Moyenne d’âge des réanimations
La moyenne d’âge pour les réanimations cumulées la plus faible en métropole est pour l’île-de-France à 58,32 ans. Par ailleurs, il semble qu’en général la moyenne d’âge en Réanimation est plus faible que pour l’ensemble des hospitalisés, ce qui peut sembler curieux au premier abord. Vérifions cela :
Effectivement, dans la plupart des régions ce phénomène existe ; Ceci pourrait être expliqué par le sexe des personnes en réanimation, que nous n’avons malheureusement pas dans ces données.
Moyenne d’âge des décès
En métropole, la région avec la moyenne d’âge des décès la plus basse est l’île-de-France avec 77,8 ans.
Calcul de certains Taux par régions.
Taux de décès vs hospitalisations
Le taux de décès le plus faible est en PACA comme on l’a constaté précédemment. C’est aussi comme on l’a vu une des régions avec l’âge moyen d’hospitalisation le plus bas.
Taux de réanimations vs hospitalisations
Cela pourrait être un indicateur de la santé du patient en entrée à l’hôpital.
La Guadeloupe et la Martinique présentent des taux de réanimation très élevés. A l’autre bout on retrouve la Guyane et La Réunion. Peut-être ici un effet de « petits échantillons ».
Taux de décès vs réanimations
Attention ce n’est pas un vrai taux de décès par réanimations mais plutôt le nombre de décès vs le nombre de réanimations, les personnes décédées n’étant pas toutes passées en réanimations. C’est pour cela que l’on retrouve des valeurs > 1.
Les régions ultra-marines présentent des meilleurs taux. Ce taux pourrait être interprété comme un niveau de saturation des hôpitaux ???
Pour la suite nous abandonnerons les données des régions d’outre-mer car mis à part les erreurs plus importantes dans les données, la dynamique de l’épidémie n’est pas la même et par ailleurs les âges sont en général plus bas que pour la population métropolitaine.
Pour la suite nous allons travailler au niveau des départements. Comme les âges ne sont disponibles pour les départements que dans les fichiers « sursaud… » avec en plus des classes d’âges différentes. Nous allons être obligés de les recadrer en fonction de ce que nous constatons au niveau des régions.
Vérifions les différences d’âge pour les hospitalisations et les hospitalisations suite aux urgences :
La Corse présente la plus forte incohérence entre les données des urgences (sursaud) et les données hospitalières (SI-VIC), et de loin. Nous ne retiendrons pas non plus la Corse pour la suite et nous concentrerons sur les données en France Métropolitaine Continentale.
Données par départements (source SI-VIC)
Le fichier « donnees-hospitalieres-covid19-2020-07-01-19h00.csv » permet de récupérer des données par départements.
Nous avons pu reconstruire/récupérer les données d’hospitalisations cumulées par sexe pour les départements continentaux.
Ici aussi il subsiste des incohérences :
Comme vous pouvez le constater il existe des données manquantes dans des proportions assez importantes pour certains départements (à gauche). A contrario mais dans une moindre mesure il y a des données en trop sur le sexe pour certains autres départements (à droite).
Puisqu’il faut faire un choix, nous calculerons plutôt les proportions sur les sommes hommes femmes plutôt que sur les données globales pour la suite ; Ceci afin d’avoir une somme des proportions égale à 1.
Répartitions pas sexe :
Hospitalisations
La proportion hommes / Femmes pour les hospitalisations varie sensiblement d’un département à l’autre. De façon générale, il y a plus d’hommes hospitalisés.
Réanimations
Pour les réanimations on a en général une sur représentation des hommes. Ce qui pourrait expliquer l’âge plus bas en réanimation qu’en hospitalisation que l’on a constaté précédemment.
Décès
La sur représentation des hommes est moins nette pour les décès que pour les réanimations : aurait-on moins bien soigné les femmes que les hommes ?
Comparatif Taux de Réa vs Taux de décès global/hommes/femmes
Le graphique semble confirmer ce que nous disions précédemment ; La proportion moindre de femmes en réanimation a pu entraîner une mortalité plus importante qu’attendue.
Comparatif Taux de Réa vs Taux de décès global par départements
Et il semble y avoir un effet inversement proportionnel entre la taux de réanimation et le taux de décès.
C’est peut-être plus lisible par régions :
Graphiques par âge
Remarque : nous avons recadré les âges notamment dans les fichier « sursaud » (urgence) par rapport aux données régionales des hospitalisations. les données dans les fichiers « sursaud » étant en général plus basses, en partie à cause de l’échelles des classes qui est plus étalée dans les fichiers d’hospitalisations.
Age moyen de passages aux urgences par départements
L’âge varie de 51,74 ans pour la Creuse à 37,89 ans pour le Puy_de_Dôme. On retrouve beaucoup de départements de la région parisienne avec des âges peu élevés.
Pour plus de lisibilité, regardons pour les départements les plus peuplés.
Les départements d’île-de-France présentent souvent des moyennes d’âge faibles aux urgences. On peut se demander si c’est en rapport avec l’âge moyen de la population :
Effectivement le nuage de points présente une certaine corrélation entre l’âge moyen de la population et l’âge moyen aux urgences.
Age moyen de passages aux urgences pour Coronavirus par départements
Encore une fois les différences sont importantes et vont de 64,78 ans pour les Hautes-Pyrénées à 35,95 ans pour l’Orne
Regardons l’âge pour passage pour coronavirus dans les départements les plus peuplés.
Il y a quand même une différence de près de 10 ans entre le Bas-Rhin et Paris.
Age d’hospitalisation pour Coronavirus par département.
Encore une fois les différences sont importantes cela va de 77,5 ans pour l’Aveyron à 57,87 ans pour la Seine-et-Marne soit près de 20 ans.
Regardons l’âge d’hospitalisation pour les départements les plus peuplés :
Encore un écart de 10 ans entre l’Isère 67,88 ans et la Seine-et-Marne 57,87 ans.
Age moyen des réanimations :
Comme pour les régions les âges moyens en réanimation sont plus bas qu’en hospitalisations.
Age moyen en réanimations départements les plus peuplés.
L’Isère présente l’âge en réanimation le plus élevé avec 60,20 ans, et la Seine-et-Marne le plus bas avec 48,90 ans.
Age moyen des décès :
Encore une fois on voit des variations importantes de 90,20 Ans pour l’Aveyron à 67,95 ans pour la Seine-et-Marne.
Age moyen des décès pour les départements les plus peuplés
On remarque des âges moyens de décès faibles pour de nombreux départements de la région parisiennes : Seine-et-Marne, Val-de-Marne, Essonne, Seine-Saint-Denis, Val-d’Oise.
Apparté : profitons en pour comparer le nombre de passages aux urgences vs les passages pour coronavirus.
Comme vous pouvez le constater, les passages aux urgences ont fortement baissé pendant le confinement avant de retrouver récemment un fonctionnement normal. Ce qui a pu poser des problèmes sanitaires autres durant la crise.
Et le nombre d’hospitalisations suite à des passages pour coronavirus
Les hospitalisations pour coronavirus suivent bien la courbe des passages pour coronavirus.
Regardons le taux d’hospitalisations cumulées vs passages cumulés pour coronavirus selon les départements.
Les différences sont énormes !!!! cela va de 83,71 % pour la Manche à 1,67 % pour le Cher. Y-aurait-il des choix clairement différents selon les départements ?
Regardons dans les départements les plus peuplés :
Les différences sont encore très grandes : de 62,62 % pour le Bas-Rhin à 19,62 % pour le Pas de Calais. Malheureusement comme nous n’avons pas de données sur les décès hors hospitalisations nous ne savons pas si ces choix d’hospitalisations ou non ont eu un effet.
Comparons ce taux avec le taux de décès vs hospitalisations avec un nuage de points.
Le graphique ne présente pas de corrélation . Le choix d’hospitalisation ou non n’a pas d’incidence sur le taux de décès. A priori, seul l’état du malade est pris en compte. Malheureusement nous n’avons pas d’information sur ce sujet.
A notre avis, Il n’y a pas de politique différente d’hospitalisation ou non selon les départements.
Analyses via Machine Learning dans Dataiku : Age Moyen recadré
Les données sont issues du fichier « covid19_2020_07_01_HospUrgLitsPrepNZ.xlsx«
Comme précédemment nous allons garder les variables explicatives suivantes:
- La Date
- Le taux de réanimations par hospitalisations cumulées
- la proportion d’hommes (Données SI-VIC)
- L’age moyen des hospitalisés (données « sursaud » recadrées par rapport aux données SI-VIC régionales)
- Le taux de réanimations par rapport au nombre de lits de réanimation avant l’épidémie.
- Le taux d’hospitalisations par rapport au nombre de lits d’hôpitaux avant l’épidémie.
Les résultats de l’analyse sont les suivants :
Random Forest donne une nouvelle fois le meilleur R2.
Random Forest : Score R2 : 0.907
Importances des variables :
Mise à part la date, Le taux de réanimation sur les hospitalisations explique le mieux le modèle. A l’inverse le taux de réanimation en fonction des lits de réanimations beaucoup moins.
Comparatif des départements
Le Cher et l’Indre sont les plus mauvais élèves et la Lozère et l’Ariège les meilleurs.
Comparatif des départements les plus peuplés
La Seine-Maritime et la Moselle sont les mauvais élèves et de l’autre côté les Bouches-du-Rhône et l’Essonne les bons. La Seine-Saint-Denis s’en sort mieux que Paris.
XGBoost : Score R2 : 0.889
Importances des variables :
Avec XGBoost l’importance des variables est différentes : on a ici en premier l’Age et le sexe.
Comparatif des départements :
L’Aude et encore une fois le Cher sont dans les mauvais élèves et La Lozère et l’Ariège dans les bons et ce malgré le changement d’importance des variables.
Comparatif des départements les plus peuplés
La Loire-Atlantique et encore la Seine-Maritime sont dans les mauvais élèves et la Gironde et encore les Bouches-du-Rhône dans les bons.
Gradient Boosted Trees : Score R2 : 0.770
Importances des variables :
On retrouve le même classement qu’avec Random Forest.
Comparatif des départements :
Encore une fois on retrouve le Cher et l’Indre comme mauvais élèves et la Lozère et l’Ariège comme bon élèves.
Comparatif des départements les plus peuplés :
La Moselle et le Nord se retrouvent en mauvais élèves et encore une fois la Gironde et les Bouches-du-Rhône dans les bons.
Extra Trees : Score R2 : 0.696
Importances des Variables :
L’importance des variables diffère un peu par rapport à Random Forest. Le Taux d’hospitalisation par rapport au lits arrive en 3ème position.
Comparatif des départements :
On retrouve le Cher et L’Indre comme mauvais élèves et la Lozère et l’Ariège dans les bons.
Comparatifs des départements les plus peuplés
La Moselle et les Alpes-Maritimes sont dans les mauvais élèves et on retrouve les Bouches-du-Rhône et la Gironde dans les bons.
Orninary Least Squares : Score R2 : 0.375
le R2 n’est pas terrible pour la méthode des moindres carrés, regardons les autres coefficient et notamment le coefficient de Pearson.
Le coefficient de Pearson est au dessus de 0.6 ce qui montre une corrélation entre les variables explicatives et la variable à expliquer.
Coefficients de régressions :
Ordinary Least Squares état une méthode linéaire on peut récupérer les coefficients de régressions :
Le taux d’occupation des lits et l’âge moyen des hospitalisés influencent positivement le modèle à contrario le taux d’occupation des lits de réanimations, la proportion d’hommes (nous l’avions déjà constaté) et le taux de réanimation influencent négativement le modèle, ce qui peut être contrintuitif.
Comparatifs des départements :
On retrouve encore une fois le Cher comme mauvais élève avec les Vosges et la Lozère et les Alpes-de-Hautes-Provence comme bons élèves.
Comparatifs des départements les plus peuplés :
On retrouve encore une fois la Moselle comme mauvais élève et cette fois Paris ! Comme bons élèves encore une fois les Bouches-du-Rhône et la Haute-Garonne.
Ridge (L2) : Score R2 : 0.375
Ridge est aussi une méthode linéaire. Il n’est pas sûr que dans notre cas elle varie beaucoup par rapport à la méthode précédentes des moindres carrés. Comme précédemment le R2 est faibles regardons les autres coefficients et notamment le coefficient de Pearson.
Le coefficient de Pearson est très légèrement mieux que précédemment 0.61274 au lieu de 0.61273.
Coefficients de régressions :
On retrouve les mêmes résultats que précédemment.
Comparatifs des départements :
Idem que précédemment.
Comparatifs des départements les plus peuplés :
Les données sont équivalentes à celles pour les moindres carrés.
Conclusion Provisoire
Le recadrage des âges « sursaud » départementaux avec les données d’âges « SI-VIC » régionaux n’a pas fondamentalement changé les résultats.
Les modèles linéaires ne donnent pas les meilleurs résultats, pourtant ils semblent couramment utilisés dans les études médicales.
Les Bouches-du-Rhône se retrouvent régulièrement en bonne position, malgré ce qui a pu être dit par ailleurs sur des traitements soi-disant délétères.
La Seine-Saint-Denis s’en sort plutôt bien par rapport aux autres départements voisins, contrairement, là aussi, à ce qui a pu être dit dans la presse ou dans d’autres études. Visiblement les gens de Seine-Saint-Denis ont été aussi bien soignés qu’à Paris.
En revanche, il semble bien que dans certains départements périphériques à Paris les âges d’hospitalisations , de réanimations et de décès sont plus bas que dans d’autres départements, ce qui pourrait indiquer des pathologies plus fréquentes.
Nous verrons cela par la suite.
Cette étude est en cours !!!! Merci de patienter pour la suite !!!