1 Introduction : Présentation de l’étude et des données

Des accidents de la route ont lieu pratiquement chaque jour et entraînent des dommages corporels ou matériels importants. L’association Prévention Routière créée en \(1949\) et reconnue d’utilité publique seulement en \(1955\) conduit ses actions préventives dans de multiples domaines comme par exemple la sensibilisation et l’information du grand public. \(30\%\) des accidents mortels sont dus à une personne alcoolisée au volant. Des campagnes de prévention routière sont alors mises en place en ce qui concerne l’alcool, le téléphone au volant, la vitesse, etc. Cependant, ces préventions sont-elles convaincantes, réduisent-elles réellement le taux d’accident ?

Nous avons pour cela les caractéristiques de tous les accidents qui ont eu lieu en France de \(2005\) à \(2018\) grâce au site des données publiques françaises ( data.gouv ). Les accidents présents dans ces bases de données ont impliqué au moins un véhicule et ont fait au moins une victime qui a nécessité des soins. Les informations à notre disposition, décrivant l’accident, ont été saisies par l’unité des forces de l’ordre. Ces saisies sont rassemblées dans une fiche intitulée bulletin d’analyse des accidents corporels. L’ensemble de ces fiches constitue le fichier national des accidents corporels de la circulation dit “Fichier BAAC” (Bulletin d’Analyse des Accidents Corporels) administré par l’Observatoire national interministériel de la sécurité routière “ONISR”. \(4\) fichiers sont alors à notre dispositions :
  • Caractéristiques : décrit les circonstances générales de l’accident
  • Lieux : décrit le lieu principal de l’accident même si celui-ci s’est déroulé à une intersection
  • Véhicules : décrit les véhicules impliqués
  • Usagers : décrit les usagers impliqués

Nous observons alors que ces dernières années les accidents de la route semblent en baisse et présentent un plateau depuis l’année \(2013\). Depuis cette année, les accidents ne semblent pas diminuer, nous allons donc essayer de comprendre à quel moment les accidents ont l’air plus fréquent, cela peut sûrement être corrélé aux périodes de fêtes, au climat, etc. C’est-à-dire que par exemple les fêtes du Pays Basque en été, peuvent montrer une augmentation des accidents dans cette zone pour cette période.

Analyse de la base de données caractéristiques

La table de données caractéristiques contient des informations relatives aux accidents en eux mêmes. Elle nous permet de connaître les circonstances de chaque accident à travers différentes variables. De base, ce tableau de données contient \(16\) variables, seulement, nous avons choisi de ne retenir que \(11\) variables qui nous semblaient intéressantes pour notre étude. Les variables ainsi retenues sont les suivantes :

  • Num_Acc : chaîne de caractères correspondant à l’identifiant de l’accident (clé de jointure entre les différentes tables)
  • an : l’année de l’accident
  • mois : le mois de l’accident
  • jour : le jour de l’accident
  • lum : les conditions d’éclairage dans lesquelles l’accident s’est produit
  • dep : le département
  • com : le numéros de la commune (code INSEE)
  • col : le type de collision
  • agg : la localisation
  • int : le type de l’intersection
  • atm : les conditions atmosphériques

Analyse de la base de données lieux

Dans la base de données lieux, nous avons décidé de conserver seulement \(8\) variables pertinentes pour notre analyse, qui sont :

  • Num_Acc : correspond à l’identifiant de l’accident
  • catr : décrit la catégorie de la route (autoroute, nationale, etc.)
  • circ : décrit le régime de circulation (à sens unique, etc.)
  • nbv : le nombre total de voie de circulation
  • prof : décrit la déclivité de la route à l’endroit de l’accident
  • plan : permet de connaître le tracé de la route i.e s’il y a un virage
  • surf : décrit l’état de la route

Analyse de la base de données véhicules

Dans la base de données véhicules, nous avons décidé de garder \(5\) variables qui nous semblaient pertinentes à analyser. Parmi celle-ci, nous retrouvons :

  • Num_Acc : correspond à l’identifiant de l’accident
  • catv : décrit la catégorie du véhicule
  • obsm : décrit l’obstacle mobile heurté (Piéton, véhicule, animal, etc.)
  • choc : décrit le point de choc initial

Analyse de la base de données usager

Dans la base de données usager, nous avons décidé de retenir \(8\) variables qui sont :

  • Num_Acc : correspond à l’identifiant de l’accident
  • Num_Veh : correspond à l’identifiant du véhicule pour chacun des usagers occupant ce véhicule
  • place : décrit la place de l’usager dans le véhicule
  • grav : décrit la gravité de l’accident
  • catu : décrit la catégorie de l’usager (conducteur, passager,piéton, piéton en roller ou trottinette)
  • An-nais : correspond à l’année de naissance de l’usager
  • sexe : correspond au sexe de l’usager
  • trajet : décrit le motif de l’accident
Au cours d’une étude sommaire sur nos données, plusieurs questions se posent et feront l’objet de notre rapport.
Buts de l’étude :
  • Comment se caractérise la mortalité sur la route en \(2018\) ?
  • Quels sont les départements les plus enclins à la mortalité ?
  • Peut-on prédire le nombre de morts sur l’année \(2019\) ?

2 Statistiques descriptives sur l’année \(2018\)

Comme nous l’avons vu, nous disposons de beaucoup de variables et d’historiques concernant nos données. Nous allons donc commencer par réaliser une étude statistique portant sur l’année \(2018\). Cette étude a notamment pour objectif de repérer les caractéristiques et les circonstances des morts sur la route.

En France métropolitaine, pour l’année \(2018\) il y a eu \(55 716\) accidents. \(5.8 \%\) de ces accidents ont été mortels.

Nous remarquons que fort heureusement, les accidents mortels ne représentent qu’une très faible proportion des accidents. La majorité des accidents sont sans gravité voire ont engendré des blessés légers . Nous allons cependant dans un premier temps nous intéresser aux caractéristiques des accidents ayant engendré la mort d’une ou de plusieurs personnes.

2.1 Mortalité en fonction des caractéristiques des routes

Commençons par regarder les différentes caractéristiques des routes où ont lieu les accidents mortels.

Sur les graphes supra, la première chose que nous constatons est que près de \(65 \%\) des accidents mortels ont lieu sur les routes départementales et \(18.2 \%\) sur des voies communales. Ces types de routes étant les plus représentatives en France (plus d’un million de kilomètres), ces routes sont plus sujettes aux accidents donc aux morts. Cependant, nous remarquons que les accidents les plus graves n’ont pas lieu sur les voies communales (\(13.8 \%\) de personnes blessées gravement ou mortes) mais sur les routes en dehors du réseau publics (\(27 \%\) de personnes blessées gravement ou mortes), donc sans réelle réglementation ainsi que sur les routes départementales ($30 % de personnes blessées gravement ou mortes) toujours.

Ces graphes-là nous montrent que \(98 \%\) des accidents mortels arrivent sur des routes dont l’état est normal ou juste mouillé. Ces deux états sont les plus communs, les autres états présentés dans ces graphes sont rares ou ponctuels. Néanmoins lorsque que nous regardons le type de blessure des usagers, lors de ces événements plus rares, nous nous rendons compte, en proportion, qu’il y a plus de personnes blessées gravement ou mortes . Assurément, \(35 \%\) sur route boueuse, \(27 \%\) sur route verglacée et \(24 \%\) sur une route possédant un corps gras contre \(18 \%\) sur route normale.

La répartition des éclairages mortels permettent de voir qu’en majorité (\(58 \%\)) les accidents mortels ont lieu le jour. Cela est logique car la circulation est beaucoup plus importante le jour en France. Les proportions des blessures, elles, soulignent que c’est la nuit et sans éclairage public qu’il y a le plus de personnes blessées gravement ou mortes (\(30 \%\)). Cela peut s’expliquer parce que les endroits qui ne possèdent pas d’éclairage public sont en dehors des agglomérations, et de ce fait la vitesse des véhicules est plus élevée et la visibilité réduite par la nuit.

Nous remarquons qu’en agglomération les piétons représentent une plus grande proportion des victimes qu’hors agglomération. D’après le graphique ci-dessus, plus de piétons que de passagers sont morts en agglomération.

2.2 Mortalité en fonction de variables socio-démographiques

La première caractéristique socio-demographique qui nous semble pertinente à regarder est la classe d’âge des personnes ayant été tuées.

Nous observons que les personnes jeunes (n’ayant donc pas le permis et ne conduisant donc pas) sont les catégories de personnes les plus épargnées. En revanche, les personnes âgées et les jeunes conducteurs sont les catégories de personnes qui sont le plus mortes en \(2018\). Dans ces deux cas, l’âge du conducteur (qu’il soit trop élevé ou trop jeune) semble avoir un impact sur la mortalité : les personnes trop âgées perdraient leurs réflexes tandis que les jeunes conducteurs manqueraient d’expérience. Nous remarquons également qu’en ce qui concerne la mortalité des jeunes conducteurs, ce nombre semble être plus élevé en été ou de manière générale pendant les vacances et rechute à partir de septembre, cela semble donc bien révéler l’influence des vacances sur la mortalité des jeunes. En effet, presque \(30 \%\) des \(17-24\) ans qui ont perdu la vie sur la route en \(2018\) l’ont perdu entre juin et août.

En \(2018\), en France plus de \(3\) morts sur \(4\) à cause d’un accident de la route étaient des hommes. En terme d’âge, nous remarquons que chez les femmes la classe d’âge la plus touchée par la mortalité sur la route est la classe des plus de \(74\) ans. En revanche, chez les hommes ce sont les \(17-25\) ans qui représentent le plus grand nombre de mort : \(17.5 \%\) des hommes morts sur les routes avaient entre \(17\) et \(25\) ans alors que seulement \(13.6 \%\) des femmes mortes étaient dans cette tranche d’âge. De même, presque \(30 \%\) des femmes tuées sur la route avaient plus de \(74\) ans alors que chez les hommes, cette tranche d’âge ne représente que \(13 \%\) de la mortalité en \(2018\).

2.3 Mortalité en fonction des véhicules

Le mode de transport est aussi un potentiel facteur aggravant quant à la mortalité sur la route. Nous allons donc regarder quel véhicule donne le plus grand nombre de morts sur la route.

Gravité de l’accident en fonction du type de vehicule
Type de vehiculesa
1 10 13 2 7 99
Indemne 40601.0 4872.0 1776.0 2352.0 1397.0 1299.0
Tue 1989.0 126.0 67.0 958.0 29.0 75.0
Blessé hospitalisé 10872.0 787.0 183.0 8763.0 294.0 314.0
Blessé léger 28290.0 2337.0 334.0 16198.0 839.0 616.0
Proportion mort (en %) 2.4 1.6 2.8 3.4 1.1 3.3
Proportion indemne (en %) 49.7 60.0 75.3 8.3 54.6 56.4
a 1: Voitures, 10 : Utilitaires, 13: Poids lourd, 2: Deux roues, 7: Transports en Communs, 99: Autres

C’est pour les deux roues que la mortalité est la plus forte : \(3.4\%\) des accidents dans cette catégorie ont été mortels. C’est également cette catégorie qui compte le plus faible pourcentage d’accidenté indemne (seulement \(8.3 \%\) des conducteurs de deux roues qui ont eu un accident en sont sortis indemnes) : cela traduit bien de la dangerosité des deux roues en ce qui concerne la mortalité sur la route.

Sans surprise, les véhicules légers sont la catégorie de véhicules qui déplorent le plus de morts en \(2018\) suivis par les deux roues. En réalité, plus de \(60 \%\) des morts sur la route conduisaient une voiture et près de \(30\%\) conduisaient un deux roues. Ce sont les deux catégories de véhicules qui ressortent réellement et cela n’est pas étonnant car il s’agit des catégories de véhicules qui sont le plus présentes sur nos routes. Il est donc normal qu’elles représentent la plus grande part des accidents. En \(2018\), \(32,7\) millions de voitures étaient en service (source : INSEE) ce qui peut expliquer le grand nombre de victimes sur les routes en voiture.

Nous observons tout d’abord qu’il y a eu une hausse du nombre de morts en deux roues de mai à octobre : cela peut s’expliquer par le fait qu’il y ait plus de deux roues avec les beaux jours que lorsqu’il fait un mauvais temps. Le nombre de morts en voitures semblent quant à lui un peu diminuer durant l’été, mais il reste toute l’année bien supérieur aux autres catégories de véhicules. En ce qui concerne le nombre de morts en fonction des catégories de véhicules et des classes d’âges, nous observons que plus de \(50 \%\) des jeunes de \(14\) à \(17\) ans qui ont perdu la vie en \(2018\) l’ont perdu en deux roues. Là encore, cela s’explique facilement par le fait que de \(14\) à \(17\) ans, la plupart des personnes qui conduisent ont une moto ou un scooter (\(14\) ans correspond à l’âge de l’obtention du BSR). C’est d’ailleurs pour cette tranche d’âge que la catégorie deux roues représente la plus grande proportion des victimes. Encore une fois, si les deux roues et les voitures représentent la plus grande part des morts sur les routes c’est parce qu’il s’agit des catégories de véhicules les plus présentes.

En ce qui concerne la proportion d’accidents mortels suivant les catégories de véhicules, la catégorie des deux roues semble être la plus mortelle : \(3.38 \%\) des accidents ont engendré un mort. D’ailleurs en agglomération cette catégorie représente une plus grande part des morts sur la route (\(37 \%\)) que hors agglomération(\(26 \%\)) : cela peut s’expliquer par le fait qu’en ville il y ait plus de vélos et de motos, et ces catégories de véhicules peuvent facilement entrer en collision avec d’autres, notamment à cause des conditions et des règles de circulation qui ne sont pas toujours bien respectées. Néanmoins, que ce soit en agglomération ou hors agglomération, plus d’un mort sur deux s’est tué en voiture.

Sur les graphes ci-dessus, nous pouvons remarquer que près de \(75 \%\) des accidents mortels sur la route ont pour cause un choc avec l’avant de la voiture. Cela parait logique car la majorité des accidents impliquent des accidents avec des chocs avants. L’autre graphe permet lui de voir la dangerosité des différents types d’impacts : les accidents les plus dangereux sont les accidents où le véhicule fait un tonneau (près de \(38 %\) de ces accidents causent de graves blessures). En effet, les tonneaux causent forcément de multiples chocs et souvent plus durs qui endommagent forcément plus le véhicule et ses passagers. Les accident les moins dangereux sont ceux qui impliquent un choc arrière (environ \(7 \%\) de personnes blessées gravement ou mortes). Ces accidents là, sont possiblement moins dangereux car la vitesse au moment du choc est sûrement moins élevée.

Nous avons donc regarder et essayer, à travers une analyse descriptive, de repérer les caractéristiques majeures des morts sur la route.

2.4 Sélection de variables par méthode “backward”

Afin de trouver quelles sont les variables qui expliquent la mortalité des usagers sur la route de manière inférentielle, nous allons utiliser une régression logistique avec la mortalité comme variable à expliquer.

## Start:  AIC=25539.02
## grav ~ lum + agg + surf + plan + catv + catu + choc + sexe + 
##     trajet + annee + int
## 
##          Df Deviance   AIC
## <none>         25395 25539
## - surf    8    25411 25539
## - int     8    25477 25605
## - plan    3    25469 25607
## - sexe    1    25485 25627
## - trajet  6    25499 25631
## - lum     4    25664 25800
## - choc    9    25691 25817
## - catv   19    25749 25855
## - catu    2    25772 25912
## - annee  10    26150 26274
## - agg     1    26338 26480

La fonction step de notre modèle de régression linéaire nous montre qu’en enlevant nos variables une par un de notre modèle, l’AIC (Akaike Information Criterion : critère à minimiser) ne descend pas. Le modèle avec toutes les variables est donc le meilleur modèle possible en terme d’AIC.

## 
## Call:
## glm(formula = grav ~ lum + agg + surf + plan + catv + catu + 
##     choc + sexe + trajet + annee + int, family = "binomial", 
##     data = data_2018)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -1.3704  -0.2404  -0.1531  -0.1031   3.5630  
## 
## Coefficients:
##                Estimate Std. Error z value Pr(>|z|)    
## (Intercept)    -0.93799    1.07922  -0.869 0.384771    
## lum2            0.40840    0.07340   5.564 2.63e-08 ***
## lum3            0.82362    0.04991  16.501  < 2e-16 ***
## lum4            0.48118    0.18451   2.608 0.009110 ** 
## lum5            0.33364    0.07026   4.749 2.05e-06 ***
## agg2           -1.47921    0.05090 -29.062  < 2e-16 ***
## surf2          -0.13384    0.04981  -2.687 0.007211 ** 
## surf3          -0.40252    0.51321  -0.784 0.432847    
## surf4           0.67285    0.35418   1.900 0.057466 .  
## surf5          -0.18224    0.31613  -0.576 0.564280    
## surf6           0.12410    0.61682   0.201 0.840554    
## surf7           0.13498    0.22237   0.607 0.543859    
## surf8          -0.29583    0.39305  -0.753 0.451664    
## surf9          -0.45022    0.24753  -1.819 0.068938 .  
## plan2           0.40582    0.05563   7.295 2.98e-13 ***
## plan3           0.35115    0.05615   6.254 4.01e-10 ***
## plan4           0.06786    0.13568   0.500 0.616958    
## catv2          -0.19947    0.13387  -1.490 0.136222    
## catv3          -0.03877    0.22641  -0.171 0.864029    
## catv7          -0.80565    0.08821  -9.133  < 2e-16 ***
## catv10         -1.04090    0.12634  -8.239  < 2e-16 ***
## catv13         -0.33871    0.16815  -2.014 0.043980 *  
## catv16         -0.08596    0.18760  -0.458 0.646812    
## catv20          0.18229    0.37840   0.482 0.629990    
## catv30         -0.70403    0.19938  -3.531 0.000414 ***
## catv31         -0.36097    0.15354  -2.351 0.018725 *  
## catv32         -0.42729    0.18150  -2.354 0.018565 *  
## catv33          0.11922    0.09653   1.235 0.216812    
## catv34         -0.74338    0.20179  -3.684 0.000230 ***
## catv35         -0.34939    1.03469  -0.338 0.735603    
## catv36         -0.24439    0.32912  -0.743 0.457747    
## catv37         -1.54802    0.39228  -3.946 7.94e-05 ***
## catv38         -2.16357    0.51864  -4.172 3.02e-05 ***
## catv39         -0.62797    0.84485  -0.743 0.457309    
## catv40         -0.22520    0.53233  -0.423 0.672257    
## catv99         -0.62093    0.27675  -2.244 0.024852 *  
## catu2          -0.22212    0.05930  -3.746 0.000180 ***
## catu3           1.24230    0.06455  19.244  < 2e-16 ***
## choc1          -0.10293    0.07734  -1.331 0.183225    
## choc2          -0.36030    0.09130  -3.946 7.93e-05 ***
## choc3          -0.22235    0.08727  -2.548 0.010837 *  
## choc4          -1.21961    0.11805 -10.331  < 2e-16 ***
## choc5          -1.06970    0.19928  -5.368 7.97e-08 ***
## choc6          -1.20553    0.17140  -7.034 2.01e-12 ***
## choc7          -0.06708    0.10189  -0.658 0.510302    
## choc8          -0.33359    0.10322  -3.232 0.001230 ** 
## choc9           0.30504    0.11833   2.578 0.009938 ** 
## sexe2          -0.42825    0.04634  -9.241  < 2e-16 ***
## trajet1        -0.17333    0.07296  -2.376 0.017525 *  
## trajet2         0.03333    0.16735   0.199 0.842146    
## trajet3         0.40067    0.09964   4.021 5.79e-05 ***
## trajet4        -0.67552    0.11400  -5.926 3.11e-09 ***
## trajet5         0.17348    0.05143   3.373 0.000743 ***
## trajet9        -0.12313    0.08522  -1.445 0.148497    
## annee1920-1929  0.72478    1.07921   0.672 0.501848    
## annee1930-1939  0.06810    1.07489   0.063 0.949483    
## annee1940-1949 -0.58530    1.07484  -0.545 0.586062    
## annee1950-1959 -1.03984    1.07475  -0.968 0.333286    
## annee1960-1969 -1.39782    1.07473  -1.301 0.193385    
## annee1970-1979 -1.45388    1.07470  -1.353 0.176113    
## annee1980-1989 -1.56329    1.07462  -1.455 0.145744    
## annee1990-1999 -1.60929    1.07430  -1.498 0.134138    
## annee2000-2009 -1.86860    1.07662  -1.736 0.082632 .  
## annee2010-2018 -1.85474    1.08341  -1.712 0.086907 .  
## int2           -0.36797    0.07611  -4.835 1.33e-06 ***
## int3           -0.20854    0.07744  -2.693 0.007085 ** 
## int4           -0.33392    0.16294  -2.049 0.040431 *  
## int5            0.04012    0.32917   0.122 0.903001    
## int6           -0.44332    0.12609  -3.516 0.000438 ***
## int7           -1.17614    0.38246  -3.075 0.002103 ** 
## int8            1.39195    0.30842   4.513 6.38e-06 ***
## int9           -0.40368    0.11464  -3.521 0.000429 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 29613  on 122206  degrees of freedom
## Residual deviance: 25395  on 122135  degrees of freedom
##   (3161 observations deleted due to missingness)
## AIC: 25539
## 
## Number of Fisher Scoring iterations: 7

En regardant la significativité des coefficients, nous pouvons remarquer que certaines variables certaines modalités sont plus intéressantes que d’autres. Nous pouvons alors noter que l’éclairage est une variable importante et que le signe positif des coefficients signifient que la modalité de référence, ici le jour, est moins dangereuse que les autres modalités représentants la nuit. De même, nous pouvons noter que les virages sont plus dangereux que les lignes droites (variable plan), les routes mouillées que les routes sèches (variable surf), les motos que tous les autres véhicules, les hommes que les femmes, ainsi que certaines intersections plutôt que “sans intersection”. Cependant, c’est l’âge des usagers qui ne semble avoir qu’une importance minime dans notre modèle contrairement à ce que nos statistiques descriptives nous montraient.

3 Analyse spatiale de la mortalité

Dans nos données nous disposons des lieux de chaque accident, et notamment le département dans lequel a eu lieu l’accident. Nous pouvons alors effectuer une analyse territoriale concernant la répartition des accidents en France en \(2018\). Nous avons alors choisi d’effectuer cette étude territoriale à l’échelle départementale en se restreignant à la France métropolitaine. Cette étude a pour but de faire ressortir les départements les plus accidentogènes et à l’inverse les départements les moins dangereux. Effectuer un tel classement pourra ensuite nous permettre de repérer quels départements se ressemblent en terme de mortalité sur les routes.

3.1 Les départements les plus dangereux et les moins dangereux en \(2018\)

Une première approche naïve que nous avons eu a été de regarder le nombre d’accidents par départements en \(2018\).

Nous pouvons remarquer à l’aide de la carte ci-dessus que les départements français qui déplorent les plus d’accidents en \(2018\) sont majoritairement ceux où se trouvent les grandes métropoles de France. Comme exemple pour appuyer ces dires nous pouvons citer la région parisienne, les Bouches-du-Rhône (avec Marseille), le Rhône (avec Lyon), Lille pour le Nord ou encore Bordeaux et la Gironde ou enfin la Haute-Garonne avec Toulouse. Du fait qu’ils contiennent les grandes villes françaises, ces départements sont aussi les plus peuplés, comme en témoigne le diagramme en barres ci-dessous où sont représentés les \(9\) départements de France métropolitaine les plus peuplés en \(2018\).

Nous pouvons d’ores et déjà émettre l’hypothèse suivante : il semble y avoir un lien entre le nombre d’habitants d’un département et le nombre d’accidents. Pour vérifier cela, nous allons essayer, à l’aide d’une régression linéaire simple, d’expliquer le nombre d’accidents d’un département par sa population.

## 
## Call:
## lm(formula = NBRE_ACC ~ Population, data = departement)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1856.7  -154.7    15.1   112.3  3287.4 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -2.014e+02  8.640e+01   -2.33   0.0219 *  
## Population   1.154e-03  1.014e-04   11.38   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 513.6 on 94 degrees of freedom
## Multiple R-squared:  0.5795, Adjusted R-squared:  0.575 
## F-statistic: 129.5 on 1 and 94 DF,  p-value: < 2.2e-16

Nous observons bien que le coefficient de la régression linéaire associé à la variable Population est significativement non nul : il semble donc bien y avoir un lien linéaire entre le nombre d’habitants d’un département et son nombre d’accidents. De plus, comme ce coefficient est positif, il semblerait que plus la population d’un département augmente, plus son nombre d’accident augmente aussi. Nous pouvons d’ailleurs bien remarquer ce lien dans le graphique ci-dessus.

Remarque : Chaque département est coloré de la même manière sur le graphique ci-dessus que sur la carte précédente.

Nous pouvons bien remarquer ce fameux lien entre population et nombre d’accidents. Il est d’ailleurs facilement explicable et nous nous y attendions pour plusieurs raisons. Pour commencer, si un département est fortement peuplé alors il est logique qu’il y ait un plus grand nombre d’automobilistes et donc plus d’accidents. De plus, en France, les départements les plus peuplés sont comme nous le disions, ceux dans lesquels se trouvent les métropoles françaises. De ce fait, de part leur attractivité (que ce soit pour les études, les emplois ou encore le tourisme), les routes de ces départements doivent être plus empruntées que celles d’autres départements, moins attractifs et moins peuplés, ce qui peut également expliquer ce lien.

De ce fait, regarder seulement le nombre d’accidents brut par département n’est pas suffisant pour conclure quant à la dangerosité d’un département. Cette première étude nous a permis de repérer un premier point : le lien linéaire entre la population et le nombre d’accidents. Donc, comme à terme nous voulons comparer les départements entre eux, il semblerait plus pertinent de les comparer en termes de nombre d’accidents par million d’habitants plutôt qu’en terme de nombre d’accidents bruts, et c’est ce que nous allons faire.

En considérant le nombre d’accident par million d’habitants, nous obtenons un résultat assez différent. Nous pouvons maintenant avoir une idée des départements les plus accidentogènes et de ceux qui le sont le moins.

Sans surprise, le département le plus accidentogène de France est Paris (\(75\)) avec plus de \(2500\) accidents de la route par million d’habitants. Vient ensuite le Val de Marne, un département de la région parisienne inclus dans la métropole du Grand Paris avec près de \(2000\) accidents par million d’habitants. Les \(3\) départements les plus dangereux qui suivent se situent tous dans le Sud Est de la France, il s’agit de la Haute-Corse, des Hautes-Alpes et des Bouches-du-Rhône. En ce qui concerne les départements les moins accidentogènes nous trouvons en premier position le Nord. Il s’agit là d’un résultat très surprenant puisque le Nord est le département contenant la métropole de Lille et dans lequel à lieu un grand nombre d’accidents. Seulement, étant également le département le plus peuplé de France en \(2018\) et d’après le lien existant entre population et accident de la route, il se trouve qu’au vue de sa grande population, ce département est le moins accidentogène avec moins de \(400\) accidents de la route en \(2018\) par million d’habitants. Il est suivi de près par le Pas-de-Calais (\(62\)) et la Moselle (\(57\)). Enfin viennent le Territoire-de-Belfort (\(90\)) et les Landes (\(40\)).

Avec ces résultats, nous pouvons conclure que les départements les plus accidentogènes de France semblent se situer autour de la métropole parisienne et sur la côte d’Azure. Le Nord de la France quant à lui semble être moins sujet aux accidents de la route.

Un département ayant un grand nombre d’accidents par million d’habitants n’est pas nécessairement un département dangereux. Afin d’affiner nos résultats, il semble important de regarder dans quels départements il y a eu le plus grand nombre de morts en \(2018\) (au vue du lien entre population et accident, nous allons également regarder le nombre de morts sur les routes par million d’habitants).

A l’aide de cette carte, nous pouvons remarquer un résultat intéressant. Les départements contenant les grandes métropoles, qui étaient certes très accidentogènes, ne sont pas les plus meurtriers de France. Cela peut s’expliquer par le fait qu’au sein de ces départements, de part la présence des métropoles, les automobilistes sont plus nombreux, mais roulent moins vite ce qui réduit la gravité des accidents. Les départements les plus mortels de France semblent être des départements plus ruraux où il y a peu d’accidents mais qui sont plus graves de part la dangerosité des routes de campagnes. Afin de s’en assurer, regardons les TOP \(5\) des départements les plus mortels et des moins mortels par million d’habitants.

Ces graphiques viennent confirmer nos hypothèses : les \(5\) départements les moins mortels de France composent tous l’Ile-de-France qui est la région la plus peuplée de France. Il s’agit pourtant d’une région très accidentogène mais qui n’est pas finalement si dangereuse que cela car c’est la région qui déplore le moins d’accidents de la route mortels par million d’habitants en France. A l’inverse, le département le plus mortel de France par million d’habitants en terme d’accidents de la route est les Hautes-Alpes, suivi par les Alpes-Maritimes, la Nièvre la Haute-Loire et la Haute-Corse.

Il semblerait donc que les départements du Sud-Est de la France soient parmis les plus dangereux, que ce soit en terme d’accidentalité (les Hautes-Alpes, la Haute-Corse et les Bouches-du-Rhônes sont parmis les plus accidentogènes) ou de mortalité (nous retrouvons les Hautes-Alpes, les Alpes-Maritimes et la Haute-Corse en tête du classement des départements les plus mortels de France par million d’habitants). Hormis pour ces départements, il semblerait qu’il n’y ait pas de lien entre le nombre d’accidents par million d’habitants et les nombre de morts sur la route par million d’habitants. En effet, à l’aide des deux cartes précédentes, nous remarquons que les départements les plus accidentogènes ne sont pas les plus mortels, comme l’illustre l’exemple de la région Ile de France.

Il est clair, à l’aide de cette matrice de corrélation qu’il n’y a aucun lien entre le nombre de morts par million d’habitants sur les routes d’un départements et son nombre d’accidents par million d’habitants.

Il n’est donc pas évident d’établir un classement des départements les plus accidentogènes de France. En effet il faut différencier le nombre d’accidents du nombre de morts qui en résultent. Comme nous l’avons vu, un département ayant un grand nombre d’accidents par million d’habitants n’est pas nécessairement un département pour lequel il y a un grand nombre de morts sur les routes par million d’habitants. Cependant, nous pouvons retenir, au sens de notre étude, que les départements les plus dangereux sont ceux qui comptent le plus de morts par million d’habitants.

3.2 Les départements qui se ressemblent

Afin de mieux voir quels départements se ressemblent en terme d’accidents de la route nous allons essayer de faire du clustering sur les départements. Cela nous permettra de pouvoir faire un classement plus consistant, en tenant compte à la fois du nombre d’accidents et du nombre de morts sur les routes, mais aussi de variables propres à chaque département comme la population ou encore la superficie. Afin d’encore améliorer nos résultats, nous allons introduire des variables supplémentaires qui peuvent avoir un lien avec les accidents de la route. Nous allons donc faire du clustering sur un jeu de données se composant des variables (quantitatives) suivantes :
  • La proportion de morts par accidents, pour tenir compte du fait qu’un département sera plus dangereux si il a une grande proportion d’accidents de la route mortels. Comme nous l’avons vu, la région parisienne est parmi la plus accidentogène et la moins mortelle alors qu’il y a beaucoup d’accidents en Haute-Corse et aussi beaucoup d’accidents mortels : ce département a donc une plus grande proportion d’accidents mortels que Paris par exemple.
  • Le nombre de morts
  • La surface (en \(km^2\))
  • Le nombre de \(km\) d’autoroutes
  • Le nombre de \(km\) de routes nationales
  • Le nombre de \(km\) de routes départementales et communales (l’ajout de ces quatres variables a pour but d’introduire des caractéristiques propres à chaque département)

Toutes les informations recueillies concernent l’année \(2018\).

Sur ce nouveau jeu de données nous allons commencer par effectuer une ACP (normée) afin de voir sur le premier plan factoriel, quels départements se ressemblent, puis nous appliquerons l’algorithme des kmeans pour faire ressortir \(3\) groupes de départements se ressemblant concernant ces caractéristiques pour l’années \(2018\).

Pour commencer, nous remarquons que retenir \(2\) composantes principales (choix d’après la règle du coude) permet d’expliquer \(68.8 \%\) de l’inertie.

Pour cette ACP, le premier axe factoriel semble être corrélé positivement avec les variables NBRE_MORT, Autoroutes et Départementales et voies communales. En ce qui concerne le deuxième axe factoriel, il semble corrélé positivement avec les variables surf_km2, prop_mort et Départementales et voies communales. Il semble aussi corrélé négativement avec la variable Population.

Nous allons donc sur ces données, appliquer l’algorithme des kmeans pour faire ressortir \(3\) groupes de départements qui se ressemblent.

Sur la carte ci-dessus les départements ont été colorés selon leur appartenance aux \(3\) groupes. Nous observons déjà que les \(3\) groupes obtenus peuvent s’expliquer, grâce à l’ACP, de la manière suivante :
  • Un groupe de départements plutôt ruraux. Ces derniers sont peu peuplés mais relativement de grande superficie. En revanche, ce qui les caractérisent le plus est leur nombre de morts inférieur à la moyenne nationale. Cependant, la proportion d’accidents qui y sont mortels semble supérieur à la moyenne.
  • Un groupe de départements ayant des valeurs dans toutes les variables dans la moyenne nationales (il s’agit de départements se trouvant majoritairement au centre du nuage de points de l’ACP). Ils peuvent être considérés comme des départements de transition, se situant notamment sur les côtes ou les frontières de la France.
  • Un groupe de départements dans lesquels se trouvent les grandes villes de France : Paris, Lyon, Marseille, Bordeaux, Toulouse, Nantes, Strasbourg, Lille … Ces départements se caractérisent par une population élevée, un nombre de morts élevé mais une proportion d’accidents mortels inférieure à la moyenne. Dans ce groupe, nous pouvons souligner que la région parisienne semble à l’écart, ceci est dû au fait qu’il y ait peu d’autoroute.

Il semblerait donc que nous ayons réussi à dégager \(3\) groupes de départements se caractérisent par leur dangerosité en terme de mortalité routière en \(2018\).

3.3 Evolution du nombre de mort par départements sur la période \(2010-2018\)

Comme nous l’avons vu, les départements français peuvent être caractérisés par leur mortalité (par million d’habitants). Comme nous disposons d’un historique de données de \(8\) ans, nous pouvons alors regarder comment ce nombre de morts par million d’habitants a évolué. Cela pourra en particulier nous permettre de savoir si un départements dangereux en \(2018\) l’était aussi les années précédentes (et inversement) ou si la mortalité de l’année \(2018\) est très différente des autres.

Nous avons donc dû récupérer des données concernant la populations par département pour tout l’historique de données que nous voulons étudier afin de pouvoir calculer le nombre de morts par million d’habitant. Les données sont trouvables sur le site de l’INSEE : 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017.

Nous obtenons alors le jeu de données suivant :

Afin de visualiser comment ce nombre de morts sur les routes par million d’habitants a évolué sur la période \(2010 - 2017\), nous avons créé une carte interactive sur laquelle il est possible de choisir l’année pour laquelle nous voulons visualiser la mortalité sur les routes. Pour des questions de cohérence, nous avons choisi de construire les classes et les légendes sur l’année \(2013\) car il s’agit de l’année pour laquelle un département a connu un record de mortalité par millions d’habitants. Il s’agit du département \(48\), la Lozère qui a déploré, en \(2013\) plus de \(198\) morts sur les routes par million d’habitant. Il s’agit du record départementale sur la période étudiée, et c’est pour cela que la légende est construite sur le nombre de morts par million d’habitants de l’année \(2013\).

Département de la Lozère ayant eu le record de mort
CODE_DEPT 2010 2011 2012 2013 2014 2015 2016 2017
48 135.333 110.6032 160.2959 198.2357 186.5138 174.6158 91.59666 99.7009

Voici alors la carte que nous obtenons.

Nous observons que le nombre de morts sur les routes par million d’habitants d’un département semble varier d’une année sur l’autre pour la majorité des départements français, comme en témoigne la carte ci-dessus. Cependant, certains départements et notamment ceux qui contiennent les grandes métropoles françaises, autrement dit Paris, le Rhône et le Nord font toujours partie des départements les moins mortels, et c’était aussi le cas en \(2018\). D’autres départements en revanche, comme la Haute-Corse ou les Alpes-de-Haute-Provence, qui faisaient partie du top \(5\) des départements les plus mortels en \(2018\) se retrouvent aussi parmi les départements les plus mortels de chaque année entre \(2010\) et \(2017\). De cette analyse, il semblerait donc que les départements très dangereux le soient tous les ans et que les départements les moins dangereux le soient également d’une année sur l’autre. Cette étude chronologique peut aussi nous permettre de faire ressortir des ressemblances entre les départements. Afin de s’en assurer, nous allons appliquer l’algorithme des kmeans pour faire ressortir \(3\) groupes.

## $`1`
##        v.test Mean in category Overall mean sd in category Overall sd
## 2016 6.509621        105.68403     64.69354       28.48464   30.48742
## 2014 5.930846         94.46585     58.25602       29.83448   29.55990
## 2017 5.530906         94.31805     64.45220       26.11078   26.14398
## 2010 5.494708        103.20458     65.70238       22.14164   33.04497
## 2015 5.265751         92.30560     60.92073       31.63436   28.85713
## 2013 5.185777         89.17278     57.03845       29.20845   30.00190
## 2012 5.110663         91.09986     61.38780       30.51535   28.14807
## 2011 4.874773         98.75866     68.66029       21.67831   29.89384
##           p.value
## 2016 7.534073e-11
## 2014 3.013781e-09
## 2017 3.185806e-08
## 2010 3.913572e-08
## 2015 1.396177e-07
## 2013 2.151163e-07
## 2012 3.210293e-07
## 2011 1.089337e-06
## 
## $`2`
##         v.test Mean in category Overall mean sd in category Overall sd
## 2014 -5.897096         31.72887     58.25602       17.20009   29.55990
## 2017 -5.900457         40.97713     64.45220       13.71901   26.14398
## 2012 -6.140724         35.08404     61.38780       17.18115   28.14807
## 2016 -6.147562         36.17199     64.69354       15.86181   30.48742
## 2015 -6.184324         33.76291     60.92073       16.42509   28.85713
## 2013 -6.348617         28.05317     57.03845       14.16371   30.00190
## 2010 -6.848636         31.26271     65.70238       16.42710   33.04497
## 2011 -7.319581         35.36234     68.66029       16.56713   29.89384
##           p.value
## 2014 3.699554e-09
## 2017 3.624953e-09
## 2012 8.214633e-10
## 2016 7.868315e-10
## 2015 6.236921e-10
## 2013 2.172591e-10
## 2010 7.455768e-12
## 2011 2.487472e-13
## 
## $`3`
##        v.test Mean in category Overall mean sd in category Overall sd
## 2011 2.901561         77.74688     68.66029       17.42520   29.89384
## 2010 1.970781         72.52468     65.70238       22.08624   33.04497
##          p.value
## 2011 0.003713087
## 2010 0.048748954
Nous observons qu’avec le premier plan factoriel nous expliquons presque \(80 \%\) de l’inertie de nos données. Nous voyons bien avec cette carte et la projection sur le plan d’ACP que l’algorithme des kmeans fait ressortir des groupes cohérents. Nous pouvons expliquer nos trois groupes de départements de la manière suivante :
  • Un groupe se caractérise par des départements ayant une faible mortalité sur la période \(2010 - 2017\). Parmis ces départements, nous pouvons citer le Rhône, les départements de l’Ile-De-France, du Nord, ou encore la Gironde et les Pyrénées-Atlantiques. Majoritairement, ces départements sont parmis les plus peuplés de France du fait qu’ils contiennent les grandes villes. Il s’agit donc de département plutôt urbains, où les routes sont limitées à \(50\) et en bon état. De plus, de parts l’attractivité de ces villes, le trafic de ces départements est dense : nous pouvons donc supposer que bien que ce soient des départements plutôt accidentogènes, les accidents y sont peu mortels du fait des conditions de circulation
  • Un deuxième groupe se caractérise par une mortalité par million d’habitants pour la période étudiée plutôt moyenne, ou du moins plus variable au cours du temps. Parmis ces départements, nous pouvons citer les Bouches-du-Rhône (département plutôt urbain), le Var, ou encore la Dordogne et les Landes (sauf pour les années \(2010\) et \(2011\), où ils ont des valeurs de mortalité supérieure à la moyenne)
  • Enfin, le dernier groupe se compose des départements ayant une mortalité par million d’habitants importantes. C’est le groupe qui a le moins de représentants mais donc celui des départements les plus mortels sur la période étudiée. Nous pouvons donc dire qu’au sens de notre étude, et au vue des résultats obtenus, les départements les plus dangereux sont les Alpes-de-Haute-Provence, la Lozère, l’Ariège, l’Orne, le Tarn-et-Garonne, etc

4 Analyse temporelle sur les années \(2010 - 2018\) de la mortalité

Tout au long de notre analyse, nous nous sommes intéressés à la mortalité routière. Comme effectué précédemment, nous retenons seulement les années \(2010-2018\) puisque le fichier de l’année \(2009\) n’était pas extractible. Par conséquent, lorsque nous regardons la série journalière de \(2005\) à \(2018\), nous obtenons ceci :

Nous constatons bien que l’année \(2009\) nous empêchera d’avoir une analyse cohérente. Nous pourrions choisir de décaler les années précédent \(2009\) afin d’obtenir une série continue. Néanmoins, nous perdrions certaines dates du fait des années bissextiles et aussi du fait que les semaines ne soient pas définies de la même façon d’années en années. Ainsi, lorsque nous voulons nous attarder sur l’aspect chronologique (que ce soit avec un pas de temps journalier, hebdomadaire ou mensuel) de la série, visualiser une tendance ou une saisonnalité ne sera pas possible. En faite, nous analyserons la série de façon journalière, hebdomadaire et mensuelle, c’est-à -dire que si on décale l’année \(2008\) en \(2009\) les lundis deviendront par exemple des mardis et cela fausserait la totalité de notre interprétation. Néanmoins, nous remarquons avec ce graphique, qu’il semble y avoir une tendance à la baisse de la mortalité, ce qui était déjà visible dans le tout premier graphique que nous avions (à pas de temps annuel). Nous allons donc comme pour la partie précédente, travailler sur les années \(2010\) à \(2018\).

Nous allons dans un premier temps observer la série avec un pas de temps journalier (telles que nous les avons dans la base de données) afin de voir si une tendance s’en dégage ou une saisonnalité. Puis dans un second temps, nous regarderons avec un pas de temps hebdomadaire ou mensuel afin de savoir si nous pouvons obtenir plus d’informations. Analysons la série lorsque nous utilisons le pas de temps journalier.

Nous avons donc la série ci-dessus à analyser. A vu d’oeil, il semblerait que cette série ait une saisonnalité plutôt annuelle. Nous allons donc regarder plus précisément la saisonnalité en effectuant des boxplots lorsque nous prenons les données de façon mensuelles afin de faire ressortir un résultat.

Nous observons bien une hausse de mortalité pendant la période estivale. Cela se confirme tout aussi bien lorsque nous regardons les données de façon hebdomadaire.

Ce résultat est donc attendu et logique. Cependant, nous nous sommes ici intéressés à l’ensemble des données de \(2010\) à \(2018\). Mais nous pourrions nous demander si cette hausse est toujours présente sur les mois d’été ou est-ce que cette période tend à diminuer au cours du temps. Par exemple, au 1er juillet 2018, la vitesse maximale autorisée passe de \(90\) à \(80\) km/h (source : Abaissement de la vitesse (gouv.fr)) sur les routes départementales où la mortalité routière est la plus forte. Nous rappelons qu’au début de notre analyse, nous avons constaté sur l’année \(2018\) que c’était toujours les routes les plus meurtrières. Néanmoins, nous avons regardé l’ensemble de l’année \(2018\) pour effectuer notre analyse. En regardant chaque année, nous pourrons savoir si le pic de mortalité dans la période estivale est plus faible en \(2018\) avec cette réglementation que dans les autres années.

En se concentrant surtout sur les mois d’été, nous pouvons nous apercevoir que pratiquement tous les ans, le mois de Juillet admet une hausse de morts sur les routes. De surcroît, l’année \(2018\) fait parti du plus faible taux de mortalité sur ce mois. Le plus faible étant l’année \(2014\) sur le mois du juillet sûrement dû au fait que ce mois était très pluvieux, ce qui a sans doute réduit l’envie de partir en vacance sur ce dernier. De manière générale, après \(2010\) l’ensemble des années n’admet pas un explosion du nombre de morts sur le mois de juillet. L’impact de la loi cité précédemment, est surtout visible sur le mois d’août de l’année \(2018\). Assurément, sur ce mois \(258\) personnes sont mortes tandis que le nombre était à \(310\) sur l’année \(2017\).

De plus, le mois de janvier, ne semble pas faire partie des mois les plus mortels. Nous pourrions nous attendre à une hausse sur ce mois, du fait qu’une personne rentrant d’une soirée après le jour de l’an peut subir un accident s’il a trop bu ou s’il croise un conducteur en état d’ébriété.

5 Conclusion

Pour commencer, nous nous étions demandés comment se caractérisait la mortalité sur la route en \(2018\). Les départementales ou encore les routes sans éclairage public (lorsque nous y roulons la nuit) semblent être des routes mortelles. Les variables socio-démographiques “sexe” et ”âge” semblent être importantes à prendre en compte. Par ailleurs, le type de véhicule conduit semble aussi avoir un impact sur la mortalité. Comme attendu, les deux roues sont plus vulnérables face à la mortalité. Peu d’entre eux en sortent complètement indemnes. Enfin, un accident qui entraîne des tonneaux est souvent plus mortel qu’un simple choc à l’arrière.

Une fois que nous avons su comment caractériser la mortalité sur la route en \(2018\), nous nous sommes demandés quels étaient les départements les plus enclins à la mortalité. Dans un premier temps, nous avons observé les accidents puisque c’était les données initiales. Les résultats n’étaient pas surprenants, les grandes villes comportent le plus d’accidents. Ainsi les accidents dépendent du nombre d’habitants. C’est pourquoi, pour caractériser un département comme dangereux, nous avons regardé le nombre d’accidents par million d’habitants en \(2018\). C’est alors Paris et le Sud-Est de la France qui ressortent comme dangereux. Cependant, nous voulions centrer notre étude sur la mortalité, car ces conséquences sont irrévocables. Lorsque nous regardons le nombre de morts par million d’habitants en \(2018\), aucunes grandes villes ne ressortent comme dangereuses. C’est-à-dire que les grandes villes sont certes très accidentogènes mais ne sont pas mortelles. A la suite de ce constat, nous avons pu séparer les villes en trois groupes différents (grandes villes, villes côtières ou frontalières et les départements plutôt ruraux). Puis selon un critère chronologique, trois autres groupes sont apparus.

Enfin, une approche seulement temporelle a été utilisée, afin de savoir si nous pourrions à terme, prédire le nombre de morts sur l’année \(2019\). En regardant seulement les années \(2010\) à \(2018\), aucune tendance semblait s’en dégager tandis que de \(2005\) à \(2018\) une tendance à la baisse était présente mais nous ne pouvions pas utiliser les années \(2005\) à \(2008\). Une saisonnalité sur les périodes estivales était visible. L’instauration d’une nouvelle réglementation sur les routes départementales a été efficace sur l’été \(2018\). Cependant, cette loi concernait les personnes majeures du fait qu’un scooter que nous pouvons conduire dès nos \(14\) ans n’a pas la possibilité d’être sur ces routes départementales limitées à \(80\)km/h. Or, nous avons remarqué dans notre première analyse purement descriptives qu’une bonne partie des jeunes qui mourraient été sur des deux roues. Ainsi, une prévention chez ces très jeunes conducteurs devrait peut-être se mettre en place pour réduire encore plus cette hausse de mortalité estivale. De plus, notre historique de données ne nous permet pas d’avoir un recul suffisant pour réellement conclure quant à l’efficacité de la loi sur la réduction de la vitesse.