Introduction

Les accidents de la route ne sont pas sans conséquences, décès et bléssés graves peuvent parfois être évités. La prévention routière cherche notamment à réduire le nombre accidents en parallèle du nombre de victimes lors de ces chocs. Des bases de données recensant les caratéristiques des accidents sont établies à chaque trimestre afin d’effectuer un bilan et de pouvoir déterminer lorsque cela est possible les facteurs influant l’évolution du nombre d’accident par exemple. Lidée étant de prévenir des risques pris par les conducteurs parfois négligeant de leur propre sécurité mais aussi celle des autres usagers. Cette étude statistique portera uniquement sur la France métropolitaine et on tentera de répondre à la problématique suivante :

Comment peut-on expliquer l’évolution du taux d’accidents en France entre 2005 et 2017 ?

On commencera cette étude par l’analyse de nos bases de données, puis nous utiliserons les statistiques inférentielles afin de déterminer les facteurs influant le plus sur le taux d’accidents en France et nous terminerons par de la prédiction.

Données

Les bases de données sont extraites du fichier BAAC qui répertorient l’intégralité des accidents corporels de la circulation intervenus durant une année précise en France métropolitaine ainsi que les départements d’Outre-mer (Guadeloupe, Guyane, Martinique, La Réunion et Mayotte depuis 2012) avec une description simplifiée. Cela comprend des informations de localisation de l’accident, telles que renseignées ainsi que des informations concernant les caractéristiques de l’accident et son lieu, les véhicules impliqués et leurs victimes.

Est considéré comme un accident corporel (mortel et non mortel) de la circulation routière, un accident qui : + implique au moins une victime, - survient sur une voie publique ou privée, ouverte à la circulation publique, - implique au moins un véhicule.

Un accident corporel implique un certain nombre d’usagers. Parmi ceux-ci, on distingue : - les personnes indemnes : impliquées non décédées et dont l’état ne nécessite aucun soin médical du fait de l’accident - les victimes : impliquées non indemnes.

Parmi les victimes, on distingue : - les personnes tuées : personnes qui décèdent du fait de l’accident, sur le coup ou dans les trente jours qui suivent l’accident - les personnes blessées : victimes non tuées.

Parmi les personnes blessées, il convient de différencier : - les blessés dits « hospitalisés » : victimes hospitalisées plus de 24 heures, - les blessés légers : victimes ayant fait l’objet de soins médicaux mais n’ayant pas été admises comme patients à l’hôpital plus de 24 heures.

Spécifications de la base : La base Etalab de données des accidents corporels de la circulation d’une année donnée, est répartie en 4 rubriques sous la forme pour chacune d’elles d’un fichier au format csv. 1. La rubrique CARACTERISTIQUES qui décrit les circonstances générales de l’accident 2. La rubrique LIEUX qui décrit le lieu principal de l’accident même si celui-ci s’est déroulé à une intersection 3. La rubrique VEHICULES impliqués 4. La rubrique USAGERS impliqués

1. Analyse descriptive du jeu de données

Le nombre d’accidents de la route a tendance à évoluer au fur et à mesure des années. Cette évolution peut être du aux nouvelles mesures de sécurités mises en place par le gouvernement tels que les radars fixes, discriminant ou encore les radars appelés radar vitesse embarqué. Ces nouveaux outils permettent de limiter les infractions et par conséquent ont pour but de réduire le nombre d’accidents. Regardons la courbe d’évolution du nombre d’accidents et tentons de l’expliquer.

## Warning: package 'ggplot2' was built under R version 3.4.4

La courbe obtenue montre que le nombre d’accidents a considérablement diminué entre 2005 et 2017. En effet, on passe de 87 026 à 59432 en plus de 10 ans, soit une dimunition de près de 32%. Cette baisse s’explique par différentes mesures prises par le gouvernement concernant la sécurité routière. On note par exemple en 2006, le passage de la loi prévoyant l’aggravation des sanctions pour les excès de vitesse de 50 km/h et plus. En 2009, les premiers dispositifs de contrôle du franchissement des feux rouges sont installés, ou encore en 2012, où de même on renforce la sécurité routière cela passe par : - L’interdiction des avertisseurs de radars - Durcissement des sanctions contre l’usage d’un téléphone ou d’un appareil à écran en conduisant - Sécurisation renforcée des chantiers routiers et de la bande d’arrêt d’urgence - Obligation d’installer des bandes d’alerte sonore sur les autoroutes pour lutter contre l’endormissement au volant Ces efforts effectués en 2012 ont porté leur fruit car en 2013, le nombre d’accident est en dessous de la barre des 60000, la première année où le nombre d’accidents est le plus faible, minimal. Le nombre d’accidents ne se stabilisera malheuresement pas et dépassera de nouveau la barre des 60 000, mais si l’on regarde globalement on voit nettement une amélioration conséquente.

Voyons à présent si cette diminution a entrainé moins de victimes décédées, car les accidents ne sont malheuresement pas sans conséquences de nombreuses victimes sont hélas, tuées, hospitalisés, et d’autres chanceux sortent indemne du choc. Regardons à présent l’évolution du nombre de victimes de tués, bléssés et indemnes.

Les courbes rouge, bleue, verte et noire représentent donc l’évolution du nombre de victimes indemnes, bléssés légers, bléssées hospotalisés et tuées. On observe rapidemment que le nombre victimes tués lors d’un accident reste quasi constant voir fluctue légérement entre 2005 et 2017. On comprend alors que certes le nombre d’accidents a diminué mais le nombre de victimes tuées ne s’est pas autant amélioré comme on pourrait le croire à la vue du premier graphique. On note toutefois une diminution des victimes bléssées hospitalisées, on passe en dessous de la barre des 40000, ce qui est plutôt positif. Les courbes rouges et bleues qui respectivement correspondents au nombre de victimes sorties indemnes de l’accident et au nombre de victimes bléssés légèrement ont la même tendance, leur nombre a considérablement diminué passant de 70891 en 2005 à 47158 en 2017 pour les personnées bléssées légerement, et 80272 en 2005 à 56270 en 2017 pour les personnes indemnes. La diminution du nombre d’accidents a donc permis de diminuer les victimes bléssées hospitalisés, les personnes bléssés légérement ainsi que les indemnes.

Observons à présent quelles sont les tranches d’âges qui sont majoritairement le plus touchés par les accidents. On choisit de comparer les années 2005 et 2013 car elles correspondent aux années pour lesquelles respectivement le nombre d’accidents a été le maximum et le minimum. Afin d’avoir une entière comparaison, on ajoutera pour certaines analyses l’année 2017 plus récente qui permettra d’affirmer certaines interprétations ou pas.

Ces graphiques nous montre que la majorité des victimes d’accidents de la route ont entre 18 et 30 ans. Cette observation est valable pour l’année 2005 ainsi que pour l’année 2013. On note aussi que le nombre de décés et de bléssés hospitalisés dans cette tranche d’âge est le plus élevé. Le nombre de tué ainsi que pour le nombre de blessés hospitalisés est d’ailleurs plus élevé dans cette catégorie d’age. Notons de plus, que le nombre d’accidents a considérablement diminué, l’échelle a été modifie. On observe de plus, que pour l’année 2013 la répartition est plus étalé contrairement à l’année 2005.

Analysons les caractéristiques des accidents afin de déterminer certains facteurs qui influeraient plus que d’autres. Observons dans un premier temps les trajets pour lesquels le nombre de victimes tués et hospitalisés sont nombreux.

x = 0 non renseigne 1 : Domicile - travail 2 : Domicile - ecole 3 : Courses - Achats 4 : Utilisation professionnelle 5 : Promenade - loisirs 9 : Autre

On observe que les trajets où surviennent le plus d’accident en 2013 sont : Promenade - Loisirs, Domicile - travail, ainsi que utilisation professionnelle. Le nombre de tués est élevé notamment dans les trajets Promenade - Loisirs ainsi que l’utilisation professionnelle puis vient ensuite Domicile - travail. Les victimes d’accidents sont sur les mêmes trajets, on ne remarque aucune différence flagrante entre les années.

Regardons alors les conditions météorologiques et si ce facteur influence plus le nombre d’accidents. s’ils ont été en agglomération ou hors agglomératiion.

1 – Normale 2 – Pluie légère 3 – Pluie forte 4 – Neige - grêle 5 – Brouillard - fumée 6 – Vent fort - tempête 7 – Temps éblouissant 8 – Temps couvert 9 – Autre

D’après le graphique on peut constater à première vue qu’en temps normal et en temps de pluie légère la majorité des accidents de route sont en agglomération. Toutefois, en temps de pluie forte le pourcentage d’accident en agglomération et en dehors sont quasi à égalité.

Observons quel est le type de collision que l’on risque probablement le plus si l’on roule en agglomération ou hors agglomération.

Type de collision : 1 – Deux véhicules - frontale 2 – Deux véhicules – par l’arrière 3 – Deux véhicules – par le coté 4 – Trois véhicules et plus – en chaîne 5 – Trois véhicules et plus - collisions multiples 6 – Autre collision 7 – Sans collision

Le graphique montre que la majorité des accidents ont lieu entre deux voitures et dont le choc est sur le coté ou à l’arrière du véhicule en agglomération. Une quantité non négligeable d’accident ont lieu sans collision.

Regardons alors le type de manoeuvre effectuée avant le choc afin de mieux comprendre le comportement des conducteurs.

D’après le barplot, on peut conclure que la majorité des conducteurs n’ont pas changé de direction et sont restés dans le même sens ou la même file de cirdulation avant l’accident, on peut egalement tirer la conclusion suivante: une grande partie des accidents étaient suite à des tournants à gauche.

On souhaiterai désormais quels sont les types de véhicules impliqués le plus dans les accidents.

Le barplot montre les trois types de véhicule les plus impliqués dans les accidents de la route en France. On retrouve en première position, les voitures, en deuxième, les Bycyclettes et enfin on retrouve les Motocyclette. Les usagers en bycyclette et motocyclette sont les plus vulnérables car la carroserie de la bycyclette ou de leur motocyclette ne permet pas de protéger les conducteurs.

A présent regardons si la lumière a une influence sur le taux d’accidents en France, est ce que les accidents surviennent le plus la nuit ou le jour ?

## 
##     1     2     3     4     5 
## 59934  5040  7135   627 14290
## 
##     1     2     3     4     5 
## 40098  3564  4467   565  9703

On observe que la plupart des accidents surviennent en plein jour, la deuxieme catégorie ou l’on comptabilise le plus grand nombre d’accident est la nuit avec éclairage public allume, et nuit sans éclairage public. Il existe donc des endroits , où l’éclairage public n’y est pas encore installé.

L’ensemble de ces interprétations concernent la France métropolitaine, observons si ces mêmes interprétations sont valables pour chaque région. L’idée étant d’expliquer l’évolution du nombre d’accidents et tenter de déterminer des facteurs qui influeraient le nombre d’accidents. On choisit de comparer les années 2005 et 2013, car elles correspondent aux années pour lesquelles respectivement le nombre d’accidents a été le maximum et le minimum. Afin d’avoir une entière comparaison, on ajoutera pour certaines analyses l’année 2017 plus récente qui permettra d’affirmer certaines interprétations ou pas. Commençons donc tout d’abord par calculer le nombre d’accidents par région en 2005 et 2013.

## Warning: package 'raster' was built under R version 3.4.4
## Loading required package: sp
## Warning: package 'sp' was built under R version 3.4.4

On observe que pour l’année 2005, le nombre d’accidents pour chaque région est différent. En effet, on peut découper la France métropolitaine en 4 parties : le sud ou le nombre d’accident est compris entre 5000 et 10000 sauf pour la région du sud est, la partie qui va de la région Bretagne jusqu’à la région Bourgogne Franche Compté où le nombre d’accident est peu élevé variant de 0 à 5000, le nord où de meme les observations sont similaires au sud , et enfin la région Ile de France, région où le nombre d’accident est maximale et très élévé contrairement au reste de la France. Pour l’année 2013, on observe une évolution certaine, le nombre d’accident est plus homogène entre les régions, comme les régions Aquitaine Limousin Poitou Charentes et Languedoc Rousillon Midi-Pyrénées où le nombre d’accidents a considérablement diminué, notons que la partie sud a elle aussi évolué mais reste à un nombre d’accidents supérieur à 5000, ainsi que la régions île de france ou on passe de 20 955 à 18 134, mais demeure la région où le nombre d’accident est maximale. Ici, on pourrait diviser la France métropolitaine en 3 avec une grande majorité des régions avec un nombre d’accidents inférieur à 5000.

Les régions regroupent de nombreux départements et une disparité au sein des régions peuvent avoir lieu. Etudions à présent le nombre d’accident par département, et observons les graphiques suivant :

## Warning in t$dep = c(t2005[1:19], t2005[22:30], t2005[20:21],
## t2005[31:96]): Conversion automatique de LHS en liste

## Warning in t$dep = c(t2013[1:19], t2013[22:30], t2013[20:21],
## t2013[31:96]): Conversion automatique de LHS en liste

On observe bien qu’il reste des départements pour lesquels le nombre d’accidents est plus grand que les autres département formant leur région. La différence est flagrante en 2005, moins en 2013, c’est pour cela qu’on continuera l’étude sur les départements afin de ne pas négliger les différences entre les départements.

## [1] 100
##   [1]  1351  1026   998   453   459  7312   585   494   393   709   738
##  [12]   518 11395  1580   233   581  2065   856   825   978   892  1612
##  [23]   940   251  1031  1316  1477  1606  1136  1521  2542  3745   604
##  [34]  4824  3184  2335   785  1218  2761   449   941   995  2339   578
##  [45]  2775  1464   373   975   266  2191  1366  1397   811   429  2280
##  [56]   533  1726  2249   571  5414  1580   640  2709  2245  2278   817
##  [67]   700  2778  1680  4893   439  1483  1596   817  1644 15195  2334
##  [78]  3312  3681   531  1767   809   742  3013  1606  1099  1093  1421
##  [89]   845   932   595  3667  4736  5345  4604  2928  1349  1545  1256
## [100]  1724
##   [1]  886  692  712  300  318 3559  373  332  242  362  504  351 5286 1104
##  [15]  154  379 1355  566  471  494  641 1041  589  160  739  904  962 1131
##  [29]  813  885 1431 1545  435 2389 1865 1026  553  806 1876  313  656  748
##  [43] 1594  372 1471 1015  244  660  187 1424  857  955  602  286 1496  322
##  [57]  985 1435  336 3336 1124  428 1848 1465 1370  523  421 1867 1073 3114
##  [71]  324  994  953  487 1046 6144 1277 2230 2184  332 1286  475  518 1549
##  [85] 1104  716  741  975  591  680  361 2483 2441 2607 2596 1831  572  746
##  [99]  247  655
## Warning in t$nombreacc = t2005bis: Conversion automatique de LHS en liste

## [1] 101
##   [1]   817   535   394   250   202  3342   256   181   182   360   869
##  [12]   423  7263   836   138   429  1107   659   459   375   588   454
##  [23]   772    92   397   634  1001   515   732  1135  1373  1547   242
##  [34]  3185  1937  1323   427  1292  1226   297   416   529  1136   283
##  [45]  1283   623   164   319   122  1261   803   515   296   213  1116
##  [56]   173  1077   891   342  2585   797   264  1353  1391  1423   458
##  [67]   516  1247   656  3738   236   539   396   324   766 11466  1351
##  [78]  1422  1878   383   952   232   345  1870   493   517   639   778
##  [89]   397   451   357  2582  4473  4504  4371  1750   700   688   505
## [100]  1029    55
##   [1]  607  349  303  176  148 1912  161  128  144  284  653  320 4337  626
##  [15]  100  312  837  525  357  220  449  268  558   71  307  355  780  371
##  [29]  505  835  840 1090  187 1347 1376  942  341  948  863  228  313  410
##  [43]  885  223  850  402  101  230   96  956  557  371  227  155  862  128
##  [57]  792  619  258 1704  603  193  956  892 1011  357  354  908  453 2158
##  [71]  169  406  278  238  535 4517  954 1054 1397  268  774  164  246 1160
##  [85]  312  366  508  599  284  351  278 1933 2723 2860 2816 1426  382  398
##  [99]  246  650   27
## Warning in t$nombreacc = t2013bis: Conversion automatique de LHS en liste

Ces graphiques nous montre le pourcentage d’usagers portant la ceinture lors de l’accident. En 2005, on observe que de nombreux département ont un pourcentage d’usagers portant la ceinture compris entre 40 et 60%, ce qui implique que 40% à 60% d’usagers ne portaient pas la ceinture de sécurité lors de l’accident, ce qui est considérablement élevé. Ces départements sont situés notamment au sud de la France et concernent une majorité des départements qui longent la mer Méditerannée, d’autres sont situés au nord ouest de la France et note que l’Aquitaine fait aussi partie de ces départements. Le reste des départements ont un pourcentage d’usagers sécurisés lors de l’accident entre 60 et 80%. En 2013, on observe une réelle évolution de nombreux départements ont majoritairement un pourcentage entre 60 et 80%, et on retrouve même des départements situés au nord de la France qui ont un pourcentage compris entre 80 et 100%. Cette évolution explique alors la diminution du nombre de bléssés hospitalisés et légers. Un usager qui porte la ceinture de sécurité a moins de risque de blessures graves que celui qui ne la porte pas.

Observons à présent le pourcentage d’accident ayant lieu la nuit avec l’éclairage public non allumé ou absent. Nous obtenons alors les graphiques suivant :

## [1] 100
## Warning in t$nombreacc = t2005bis: Conversion automatique de LHS en liste

## [1] 101
## Warning in t$nombreacc = t2013bis: Conversion automatique de LHS en liste

La comparaison entre les deux graphiques ne permet pas de conclure quant à la possible corrélation entre l’éclairage non allumé ou absent et le nombre d’accidents survenus dans les départements. En effet, en 2005 on retrouve deux départements pour lesquels le pourcentage d’accidents survenus la nuit sans éclairage public ou non allumé est compris entre 20 et 25%, et une majorité comprise entre 10 et 15% tandis qu’en 2013, on dénombre 7 départements pour lequel le pourcentage est supérieur à 20% et une majorité des départements répartis entre 5 et 15%. Les 8 ans espaçant ces deux années n’ont pas permis de réduire le pourcentage d’accident la nuit dans un milieu où l’éclairage public est absent ou non allumé.

Tentons alors d’expliquer le nombre d’accidents en fonction des variables données par le biais de régression.

2. Statistiques inférentielles

Méthode “backward”

On souhaite à présent expliquer la variable “grav” qui prend la valeur 1 lorsque l’accident a entrainé un décès, 0 sinon, à l’aide de différentes variables explicatives qu’on prendra soin de convertir en binaire. Nous avons décidé pour chaque base de donnée de faire une régression, car le nombre de variables étant importantes et les modalités aussi, le résultat aurait été difficile à interpréter.

## Warning: package 'MASS' was built under R version 3.4.4
## 
## Attaching package: 'MASS'
## The following objects are masked from 'package:raster':
## 
##     area, select
## [1] 87026
## 
## Call:
## glm(formula = carac2005$grav ~ factor(carac2005$lum) + factor(carac2005$agg) + 
##     factor(carac2005$int) + factor(carac2005$atm) + factor(carac2005$col) + 
##     1, family = binomial(link = "logit"), data = carac2005)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -1.2708  -0.2441  -0.1982  -0.1126   3.5232  
## 
## Coefficients:
##                        Estimate Std. Error z value Pr(>|z|)    
## (Intercept)            -1.02507    1.13975  -0.899  0.36845    
## factor(carac2005$lum)2  0.37830    0.07625   4.962 6.99e-07 ***
## factor(carac2005$lum)3  0.72435    0.04893  14.804  < 2e-16 ***
## factor(carac2005$lum)4 -0.16418    0.28510  -0.576  0.56469    
## factor(carac2005$lum)5  0.26544    0.06691   3.967 7.27e-05 ***
## factor(carac2005$agg)2 -1.47848    0.04870 -30.360  < 2e-16 ***
## factor(carac2005$int)1 -1.26029    1.13868  -1.107  0.26838    
## factor(carac2005$int)2 -2.03287    1.14423  -1.777  0.07563 .  
## factor(carac2005$int)3 -1.99111    1.14647  -1.737  0.08243 .  
## factor(carac2005$int)4 -1.85766    1.17884  -1.576  0.11506    
## factor(carac2005$int)5 -3.00306    1.51684  -1.980  0.04773 *  
## factor(carac2005$int)6 -1.39315    1.15262  -1.209  0.22678    
## factor(carac2005$int)7 -0.92241    1.21165  -0.761  0.44649    
## factor(carac2005$int)8  0.51766    1.18106   0.438  0.66117    
## factor(carac2005$int)9 -1.37147    1.14589  -1.197  0.23136    
## factor(carac2005$atm)2 -0.37179    0.07510  -4.951 7.40e-07 ***
## factor(carac2005$atm)3 -0.10533    0.14278  -0.738  0.46068    
## factor(carac2005$atm)4 -0.52310    0.18159  -2.881  0.00397 ** 
## factor(carac2005$atm)5  0.19116    0.14652   1.305  0.19201    
## factor(carac2005$atm)6  0.68269    0.27502   2.482  0.01305 *  
## factor(carac2005$atm)7  0.15574    0.20883   0.746  0.45582    
## factor(carac2005$atm)8  0.26038    0.08645   3.012  0.00260 ** 
## factor(carac2005$atm)9  0.05491    0.14981   0.367  0.71395    
## factor(carac2005$col)2 -1.61590    0.11125 -14.525  < 2e-16 ***
## factor(carac2005$col)3 -1.07618    0.07423 -14.499  < 2e-16 ***
## factor(carac2005$col)4 -1.96121    0.22401  -8.755  < 2e-16 ***
## factor(carac2005$col)5 -0.16798    0.08908  -1.886  0.05934 .  
## factor(carac2005$col)6 -0.14998    0.05377  -2.789  0.00528 ** 
## factor(carac2005$col)7 -0.15634    0.06260  -2.498  0.01251 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 25181  on 87025  degrees of freedom
## Residual deviance: 21770  on 86997  degrees of freedom
## AIC: 21828
## 
## Number of Fisher Scoring iterations: 8
## Start:  AIC=21828.44
## carac2005$grav ~ factor(carac2005$lum) + factor(carac2005$agg) + 
##     factor(carac2005$int) + factor(carac2005$atm) + factor(carac2005$col) + 
##     1
## 
##                         Df Deviance   AIC
## <none>                        21770 21828
## - factor(carac2005$atm)  8    21826 21868
## - factor(carac2005$int)  9    21883 21923
## - factor(carac2005$lum)  4    21988 22038
## - factor(carac2005$col)  6    22390 22436
## - factor(carac2005$agg)  1    22781 22837
## 
## Call:
## glm(formula = carac2005$grav ~ factor(carac2005$lum) + factor(carac2005$agg) + 
##     factor(carac2005$int) + factor(carac2005$atm) + factor(carac2005$col) + 
##     1, family = binomial(link = "logit"), data = carac2005)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -1.2708  -0.2441  -0.1982  -0.1126   3.5232  
## 
## Coefficients:
##                        Estimate Std. Error z value Pr(>|z|)    
## (Intercept)            -1.02507    1.13975  -0.899  0.36845    
## factor(carac2005$lum)2  0.37830    0.07625   4.962 6.99e-07 ***
## factor(carac2005$lum)3  0.72435    0.04893  14.804  < 2e-16 ***
## factor(carac2005$lum)4 -0.16418    0.28510  -0.576  0.56469    
## factor(carac2005$lum)5  0.26544    0.06691   3.967 7.27e-05 ***
## factor(carac2005$agg)2 -1.47848    0.04870 -30.360  < 2e-16 ***
## factor(carac2005$int)1 -1.26029    1.13868  -1.107  0.26838    
## factor(carac2005$int)2 -2.03287    1.14423  -1.777  0.07563 .  
## factor(carac2005$int)3 -1.99111    1.14647  -1.737  0.08243 .  
## factor(carac2005$int)4 -1.85766    1.17884  -1.576  0.11506    
## factor(carac2005$int)5 -3.00306    1.51684  -1.980  0.04773 *  
## factor(carac2005$int)6 -1.39315    1.15262  -1.209  0.22678    
## factor(carac2005$int)7 -0.92241    1.21165  -0.761  0.44649    
## factor(carac2005$int)8  0.51766    1.18106   0.438  0.66117    
## factor(carac2005$int)9 -1.37147    1.14589  -1.197  0.23136    
## factor(carac2005$atm)2 -0.37179    0.07510  -4.951 7.40e-07 ***
## factor(carac2005$atm)3 -0.10533    0.14278  -0.738  0.46068    
## factor(carac2005$atm)4 -0.52310    0.18159  -2.881  0.00397 ** 
## factor(carac2005$atm)5  0.19116    0.14652   1.305  0.19201    
## factor(carac2005$atm)6  0.68269    0.27502   2.482  0.01305 *  
## factor(carac2005$atm)7  0.15574    0.20883   0.746  0.45582    
## factor(carac2005$atm)8  0.26038    0.08645   3.012  0.00260 ** 
## factor(carac2005$atm)9  0.05491    0.14981   0.367  0.71395    
## factor(carac2005$col)2 -1.61590    0.11125 -14.525  < 2e-16 ***
## factor(carac2005$col)3 -1.07618    0.07423 -14.499  < 2e-16 ***
## factor(carac2005$col)4 -1.96121    0.22401  -8.755  < 2e-16 ***
## factor(carac2005$col)5 -0.16798    0.08908  -1.886  0.05934 .  
## factor(carac2005$col)6 -0.14998    0.05377  -2.789  0.00528 ** 
## factor(carac2005$col)7 -0.15634    0.06260  -2.498  0.01251 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 25181  on 87025  degrees of freedom
## Residual deviance: 21770  on 86997  degrees of freedom
## AIC: 21828
## 
## Number of Fisher Scoring iterations: 8

La méthode backward nous renvoie alors 27 variables avec les coefficients associés pour un AIC s’élevant à 21828 ce qui extrêmement grand et qui nous entrainerait à dire que le modèle est mauvais. Regardons toutefois les variables qui ont été significatives dans le modèle. Celui-ci retient alors pour la variable lumière les modalités crépuscule, nuit sans éclairage public et nuit avec éclairage public allumé. Pour la variable intersection, seulement une modalité est retenue, il s’agit de l’intersection à plus de 4 branches. En ce qui concerne la variable atmosphère, 4 modalités ont été retenues : pluie légère, Neige grêle, vent fort et tempête et enfin temps couvert. Pour finir toutes les modalités de la variable collision ont été retenues. D’après le modèle on pourrait donc expliquer un décès d’un usager lors de l’accident par l’ensemble de ces modalités. La méthode n’est aussi pas concluante, passons alors à la méthode de RIDGE.

Méthode RIDGE

On commence tout d’abord par tracer les coefficients des variables en fonction du loglambda variant de -6 à 3. Remarquons que l’échelle des coefficients est très petite de l’ordre de 10^-1.

## Warning: package 'glmnet' was built under R version 3.4.4
## Loading required package: Matrix
## Loading required package: foreach
## Warning: package 'foreach' was built under R version 3.4.4
## Loaded glmnet 2.0-16
## Warning: package 'FactoMineR' was built under R version 3.4.4

Il nous faut donc trouver le lambda optimal pour cela on fait appel à la méthode de validation croisée, dont le critère est l’AUC. L’AUC mesure la qualité d’un score trouvé pour la classification binaire. Plus l’AUC est grand, meilleur est le test. La validation croisée avec critère AUC marche uniquement sur l’ensemble des données.

On a donc tracé l’AUC en fonction du log lambda. On observe que l’AUC est globalement croissant pour des lambdas allant de -6 à 3. L’AUC est maximal pour le dernier point et vaut environ à l’oei nu 0.0318, ce qui est relativement faible. Afin d’avoir de résultat précis, affichons ci-dessous les lambdas, l’AUC associé et le nombre de coefficients non-nuls (qui n’évolue pas puisque nous utilisons une régression ridge).

##             [,1]       [,2] [,3]
## s0  29.920068537 0.03181462   33
## s1  27.262052114 0.03177542   33
## s2  24.840166543 0.03176879   33
## s3  22.633434612 0.03176423   33
## s4  20.622742663 0.03175926   33
## s5  18.790675045 0.03175384   33
## s6  17.121363265 0.03174794   33
## s7  15.600348542 0.03174151   33
## s8  14.214456575 0.03173450   33
## s9  12.951683431 0.03172689   33
## s10 11.801091572 0.03171862   33
## s11 10.752715123 0.03170964   33
## s12  9.797473548 0.03169990   33
## s13  8.927093002 0.03168935   33
## s14  8.134034664 0.03167793   33
## s15  7.411429444 0.03166559   33
## s16  6.753018479 0.03165228   33
## s17  6.153098930 0.03163794   33
## s18  5.606474580 0.03162252   33
## s19  5.108410831 0.03160596   33
## s20  4.654593693 0.03158821   33
## s21  4.241092418 0.03156923   33
## s22  3.864325457 0.03154898   33
## s23  3.521029434 0.03152742   33
## s24  3.208230884 0.03150453   33
## s25  2.923220495 0.03148029   33
## s26  2.663529643 0.03145471   33
## s27  2.426909011 0.03142778   33
## s28  2.211309103 0.03139953   33
## s29  2.014862497 0.03137000   33
## s30  1.835867666 0.03133925   33
## s31  1.672774243 0.03130734   33
## s32  1.524169590 0.03127439   33
## s33  1.388766564 0.03124048   33
## s34  1.265392370 0.03120576   33
## s35  1.152978400 0.03117037   33
## s36  1.050550977 0.03113446   33
## s37  0.957222923 0.03109823   33
## s38  0.872185877 0.03106184   33
## s39  0.794703288 0.03102549   33
## s40  0.724104038 0.03098938   33
## s41  0.659776631 0.03095369   33
## s42  0.601163894 0.03091863   33
## s43  0.547758150 0.03088436   33
## s44  0.499096826 0.03085108   33
## s45  0.454758439 0.03081892   33
## s46  0.414358953 0.03078803   33
## s47  0.377548446 0.03075853   33
## s48  0.344008082 0.03073051   33
## s49  0.313447353 0.03070405   33
## s50  0.285601554 0.03067920   33
## s51  0.260229499 0.03065600   33
## s52  0.237111427 0.03063445   33
## s53  0.216047102 0.03061455   33
## s54  0.196854073 0.03059626   33
## s55  0.179366099 0.03057955   33
## s56  0.163431710 0.03056436   33
## s57  0.148912887 0.03055062   33
## s58  0.135683876 0.03053825   33
## s59  0.123630095 0.03052718   33
## s60  0.112647138 0.03051732   33
## s61  0.102639877 0.03050858   33
## s62  0.093521633 0.03050086   33
## s63  0.085213429 0.03049409   33
## s64  0.077643303 0.03048817   33
## s65  0.070745686 0.03048302   33
## s66  0.064460834 0.03047855   33
## s67  0.058734311 0.03047471   33
## s68  0.053516517 0.03047141   33
## s69  0.048762257 0.03046858   33
## s70  0.044430352 0.03046617   33
## s71  0.040483282 0.03046414   33
## s72  0.036886859 0.03046243   33
## s73  0.033609932 0.03046100   33
## s74  0.030624119 0.03045980   33
## s75  0.027903556 0.03045881   33
## s76  0.025424681 0.03045799   33
## s77  0.023166023 0.03045731   33
## s78  0.021108017 0.03045676   33
## s79  0.019232839 0.03045632   33
## s80  0.017524247 0.03045596   33
## s81  0.015967441 0.03045568   33
## s82  0.014548937 0.03045545   33
## s83  0.013256450 0.03045528   33
## s84  0.012078783 0.03045515   33
## s85  0.011005738 0.03045505   33
## s86  0.010028018 0.03045498   33
## s87  0.009137157 0.03045493   33
## s88  0.008325437 0.03045490   33
## s89  0.007585828 0.03045488   33
## s90  0.006911924 0.03045488   33
## s91  0.006297888 0.03045488   33
## s92  0.005738401 0.03045489   33
## s93  0.005228617 0.03045491   33
## s94  0.004764121 0.03045492   33
## s95  0.004340890 0.03045494   33
## s96  0.003955257 0.03045497   33
## s97  0.003603883 0.03045499   33
## s98  0.003283724 0.03045501   33

Il nous faut retenir le lambda pour lequel l’AUC est maximal.

## [1] 0.006911924
## [1] 0.8721859
## [1] 0.03045488

On choisit donc le lambda pour lequel l’AUC est maximal, il s’avère qu’il s’agit du lambda choisi par le critère 1SE qui s’élève à 0.4990968 avec un AUC à 0.03084997, ce qui très faible. Observons alors où ce situe le lambda choisi et quels sont les coefficients des variables associées à ce lambda pour lequel l’AUC est maximal.

La ligne verticale rouge nous donne le lambda optimal choisi. On voit aussi que les coefficients des variables sont très peu élevés si l’on prend le lambda pour lequel l’AUC est maximal. Affichons plus précisément les coefficients des variables et interprétons les.

## 34 x 1 sparse Matrix of class "dgCMatrix"
##                         1
## (Intercept)  0.0365926324
## lum1        -0.0033141368
## lum2         0.0012803185
## lum3         0.0120403355
## lum4        -0.0022395776
## lum5        -0.0018182721
## agg1         0.0085358395
## agg2        -0.0085356960
## 0            0.0134728241
## int1         0.0032544271
## int2        -0.0032503337
## int3        -0.0031390537
## int4        -0.0026543850
## int5        -0.0036557773
## int6        -0.0012503508
## int7        -0.0004878940
## int8         0.0219410107
## int9         0.0002068581
## atm1        -0.0005606802
## atm2        -0.0015106387
## atm3         0.0005622595
## atm4        -0.0011302127
## atm5         0.0069381994
## atm6         0.0078771121
## atm7         0.0001184411
## atm8         0.0031455578
## atm9         0.0046942216
## col1         0.0050504431
## col2        -0.0042852518
## col3        -0.0038846058
## col4        -0.0046798259
## col5         0.0036295984
## col6         0.0016940260
## col7         0.0041505884

On a ainsi le détail des coefficients pour chaque variable. Les coefficients comme le graphique le démontrait sont bas de l’ordre de 10^-3 jusqu’à 10^-4. Pour les interpréter, il faudrait calculer l’exponentielle de tous les coefficients des variables. Toutes les variables sont quasi égales à 0 et l’exponentielle de ces coefficients sont égales à 1. Le modèle retient donc toutes les variables avec un coefficient d’à peu près égales à 1. On observe cependant que les quatre variables pour lesquels le coefficient est le plus élevé de tous sont lum3 qui correspond à Nuit sans éclairage public et agg1 qui correspond à – Hors agglomération, et int8 et in1 qui correspondent à Hors intersection et Passage à niveau. Ces résultats ne correspond en aucun cas au résultat obtenu par la méthode backward.

Méthode LASSO

Utilisons alors la méthode LASSO afin de sélectionner les variables significatives. Le procédé est le même, on commence par tracer les coefficients des différentes variables en fonction de log lambda. On utilise par la suite la méthode de validation croisée en prenant soin de choisir le critère ici, l’AUC. On garde enfin le lambda pour lequel l’AUC est maximal.

Commençons donc par tracer les coefficients des variables en fonction du log lambda.

On utilise comme précédemment dans la méthode de RIDGE, la validation croisée qui permet de choisir le lambda optimal. On trace alors l’AUC en fonction du log de lambda et on obtient le graphique suivant :

Le graphique présente donc l’AUC en fonction du log lambda. On observe une tendance croissante de l’AUC. En effet, plus le log lambda est élevé, plus l’AUC augmente. Les deux lignes verticales représentent les deux valeurs de lambda optimaux, lambda pour lequel l’AUC est maximal, et le lambda choisi par le critère 1-SE.

Afin d’avoir de résultat précis, affichons ci-dessous les lambdas, l’AUC associé et le nombre de coefficients non-nuls (qui évolue puisque nous utilisons une régression lasso).

##             [,1]       [,2] [,3]
## s0  2.992007e-02 0.03180985    0
## s1  2.726205e-02 0.03166595    2
## s2  2.484017e-02 0.03153977    2
## s3  2.263343e-02 0.03143488    2
## s4  2.062274e-02 0.03134352    3
## s5  1.879068e-02 0.03124006    3
## s6  1.712136e-02 0.03115050    3
## s7  1.560035e-02 0.03107599    3
## s8  1.421446e-02 0.03101413    3
## s9  1.295168e-02 0.03096277    3
## s10 1.180109e-02 0.03092013    3
## s11 1.075272e-02 0.03088445    3
## s12 9.797474e-03 0.03084869    4
## s13 8.927093e-03 0.03081392    4
## s14 8.134035e-03 0.03078387    4
## s15 7.411429e-03 0.03074562    5
## s16 6.753018e-03 0.03071127    6
## s17 6.153099e-03 0.03068181    6
## s18 5.606475e-03 0.03065687    6
## s19 5.108411e-03 0.03063123    7
## s20 4.654594e-03 0.03060761    8
## s21 4.241092e-03 0.03058740    8
## s22 3.864325e-03 0.03057017   10
## s23 3.521029e-03 0.03055393   10
## s24 3.208231e-03 0.03053918   10
## s25 2.923220e-03 0.03052648   11
## s26 2.663530e-03 0.03051539   11
## s27 2.426909e-03 0.03050576   12
## s28 2.211309e-03 0.03049745   13
## s29 2.014862e-03 0.03049035   14
## s30 1.835868e-03 0.03048431   14
## s31 1.672774e-03 0.03047911   17
## s32 1.524170e-03 0.03047458   18
## s33 1.388767e-03 0.03047032   18
## s34 1.265392e-03 0.03046661   18
## s35 1.152978e-03 0.03046361   18
## s36 1.050551e-03 0.03046107   18
## s37 9.572229e-04 0.03045897   18
## s38 8.721859e-04 0.03045729   19
## s39 7.947033e-04 0.03045597   20
## s40 7.241040e-04 0.03045494   21
## s41 6.597766e-04 0.03045417   21
## s42 6.011639e-04 0.03045358   23
## s43 5.477582e-04 0.03045314   24
## s44 4.990968e-04 0.03045278   24
## s45 4.547584e-04 0.03045243   26
## s46 4.143590e-04 0.03045218   26
## s47 3.775484e-04 0.03045200   26
## s48 3.440081e-04 0.03045187   26
## s49 3.134474e-04 0.03045181   27
## s50 2.856016e-04 0.03045179   27
## s51 2.602295e-04 0.03045174   28
## s52 2.371114e-04 0.03045169   29
## s53 2.160471e-04 0.03045166   29
## s54 1.968541e-04 0.03045165   29
## s55 1.793661e-04 0.03045165   30
## s56 1.634317e-04 0.03045167   30
## s57 1.489129e-04 0.03045169   30
## s58 1.356839e-04 0.03045172   30
## s59 1.236301e-04 0.03045174   30
## s60 1.126471e-04 0.03045178   30
## s61 1.026399e-04 0.03045183   30
## s62 9.352163e-05 0.03045187   30
## s63 8.521343e-05 0.03045192   30
## s64 7.764330e-05 0.03045197   30
## s65 7.074569e-05 0.03045201   30
## s66 6.446083e-05 0.03045205   30
## s67 5.873431e-05 0.03045209   30
## [1] 0.0001968541
## [1] 0.008927093
## [1] 0.03045165

Parmi toutes les valeurs de lambda, il nous faut retenir le lambda pour lequel l’AUC est maximal. On choisit donc le lambda choisi par le critère 1SE car à cette valeur l’AUC est égal à 0.03081392. Observons désormais où est ce que se situe le lambda qui a été retenu sur le graphique.

La ligne verticale bleu correspond au lambda choisi par le critère 1SE. La ligne verticale rouge correspond au lambda optimal choisi, celui pour lequel l’AUC est maximal. Elle coupe les courbes des coefficients des variables en un certain point. Ce sont ces coefficients que l’on considérera par la suite. On observe que pour trois variables, les coefficients sont différents de 0, tandis que d’autres sont à zéros. Affichons plus précisément les coefficients des variables et interprétons les.

## 34 x 1 sparse Matrix of class "dgCMatrix"
##                         1
## (Intercept)  2.271679e-02
## lum1        -5.144180e-03
## lum2         6.544610e-03
## lum3         4.741112e-02
## lum4        -6.811078e-03
## lum5         .           
## agg1         4.857271e-02
## agg2        -1.258555e-12
## 0            6.132106e-02
## int1         5.631407e-03
## int2        -2.349756e-03
## int3        -1.173130e-03
## int4        -6.678994e-04
## int5        -2.077313e-03
## int6         2.195272e-03
## int7         7.078046e-03
## int8         1.224609e-01
## int9         .           
## atm1         .           
## atm2        -1.007318e-02
## atm3        -2.449593e-03
## atm4        -1.611970e-02
## atm5         1.451070e-02
## atm6         3.357495e-02
## atm7         6.081724e-04
## atm8         1.114271e-02
## atm9         6.054158e-03
## col1         1.061997e-02
## col2        -3.014188e-02
## col3        -2.007716e-02
## col4        -3.696089e-02
## col5         1.960768e-03
## col6         .           
## col7         3.711561e-03
##  [1] "lum1" "lum2" "lum3" "lum4" "agg1" "agg2" "0"    "int1" "int2" "int3"
## [11] "int4" "int5" "int6" "int7" "int8" "atm2" "atm3" "atm4" "atm5" "atm6"
## [21] "atm7" "atm8" "atm9" "col1" "col2" "col3" "col4" "col5" "col7"

On a ainsi le détail des coefficients pour chaque variable. Les variables dont le coefficient n’est pas renseigné, sont égales à 0. 29 variables sont retenues, dont certaines avec des coefficients plus élevés que d’autres, c’est le cas des variables int8 et agg1. Afin d’interpréter ces variables on calcule l’exponentielle de leurs coefficient, toutefois toutes sont proches de 0. Les variables qui influent le plus sur sont donc le passage à niveau et l’hors agglomération. Les autres variables influent aussi sur la variable réponse cependant à des degrés différents. Ainsi le décès d’un usager peut s’expliquer par toutes les variables sélectionnées par la méthode LASSO, en partie les variables int8 et agg1.

Prédiction

Nous souhaitons prédire le nombre d’accidents, pour cela nous avons construit une série temporelle à partir du nombre d’accidents par jour en France entre 2005 et 2017 afin d’avoir un nombre conséquent d’observations.

## Warning: package 'tseries' was built under R version 3.4.4
## [1] 4383
##  [1] 180 137 234 279 270 281 271 199 164 262

Le graphique montre bien que le nombre d’accidents par jour avait tendance à baisser entre 2005 et 2013 avant qu’il ne croit légèrement entre 2013 et 2017.

Stationnarité de la Serie:

La notion de stationnarité caractérise la capacité d’un processus à se décorréler totalement de l’indice temporel. Ainsi la loi du processus, bien que restant souvent inconnue, sera bien plus aisée à manipuler par l’intermédiaire de ses propriétés d’espérance et de covariance.

En utilisant la fonction d’autocorrélation entre les différentes valeurs observées de la série, nous avons obtenu le grahique. Notons que le premier aspect qui se dessine est : la moyenne changeante. En utilisant la fonction d’autocorrélation entre les différentes valeurs observées de la série. Ainsi du fait de l’observation de là à la moyenne changeanteante, on conclut que la série n’est pas stationaire.

Test KPSS:

Afin de confirmer l’hypothèse tirée ci-dessus sur la stationnarité de la série on procède à un test statistique qui vise à vérifier l’hypothèse nulle: “la série temporelle est stationnaire” contre l’hypothèse alternative “la série temporelle n’est pas stationnaire”.

## 
##  KPSS Test for Level Stationarity
## 
## data:  X
## KPSS Level = 20.726, Truncation lag parameter = 10, p-value = 0.01
## [1] FALSE

La sortie de ce test rend True si l’hypothèse nulle est vérifiée or ici on peut lire FALSE avec une p-value très faible ce qui confirme la non-stationnarité de la série.

Différenciation de la série:

Voici à quoi ressemble une série chronologique non stationnaire c’est une série qui ne dépend pas du temps et qui ne présente aucune tendance.

Et voici à quoi ressemble la fonction d’autocorrélation d’une série chronologique non stationnaire, notons que les corrélations ne présentent pas des fluctuations à travers le temps.

Prédiction avec le modèle ARIMA

On procéde dans un premier temps par le choix des paramètres qui minimisent le critère AIC:

Prédiction en utilisant les paramètres choisis

## [1] 4 1 4

Visualisation des prédictions.

## Time Series:
## Start = 4384 
## End = 4503 
## Frequency = 1 
##   [1] 122.5998 131.8826 105.8724 113.3982 134.5499 114.5073 100.0281
##   [8] 125.5185 128.5696 102.0456 111.0684 133.6740 114.6474 100.5291
##  [15] 125.7724 128.6158 102.1468 111.0836 133.5310 114.6273 100.6318
##  [22] 125.7268 128.5328 102.2356 111.1329 133.4236 114.6267 100.7389
##  [29] 125.6792 128.4466 102.3212 111.1808 133.3168 114.6264 100.8456
##  [36] 125.6319 128.3611 102.4064 111.2282 133.2107 114.6262 100.9516
##  [43] 125.5850 128.2763 102.4910 111.2753 133.1053 114.6262 101.0568
##  [50] 125.5382 128.1920 102.5752 111.3220 133.0005 114.6262 101.1614
##  [57] 125.4917 128.1083 102.6589 111.3683 132.8964 114.6263 101.2653
##  [64] 125.4454 128.0252 102.7421 111.4142 132.7929 114.6264 101.3685
##  [71] 125.3993 127.9427 102.8248 111.4598 132.6901 114.6267 101.4711
##  [78] 125.3534 127.8607 102.9070 111.5050 132.5879 114.6270 101.5729
##  [85] 125.3078 127.7794 102.9887 111.5499 132.4864 114.6274 101.6741
##  [92] 125.2624 127.6986 103.0700 111.5943 132.3855 114.6279 101.7746
##  [99] 125.2172 127.6184 103.1508 111.6385 132.2852 114.6285 101.8744
## [106] 125.1722 127.5387 103.2311 111.6822 132.1855 114.6291 101.9736
## [113] 125.1274 127.4597 103.3110 111.7256 132.0865 114.6298 102.0721
## [120] 125.0829

En rouge on voit le nombre d’accidents par jours pour les trois premiers mois de 2018,d’ores et déja on peut constater que ces prévisions ne représentent pas un grande écart entre eux contrairement aux écarts importants du nombre d’accidents enregistrées entre les journées.

Conclusion

L’ensemble des analyses descriptives ont permis de visualiser de manière plus intéressante les données. Elles ont aussi permises de mettre en évidence la catégorie d’âge des usagers la plus touchée, il s’agit de la tranche d’âge 18-30 ans. La prévention routière pourra ainsi cibler les conducteurs qui présentent alors le plus de risque d’avoir un accident. Les trajets où l’on observe le plus grand nombre d’accidents sont les loisirs ce qui peut en premier lieu surprendre. On note d’ailleurs le plus d’accidents en agglomération où la concentration est moindre lors des bouchons par exemple, certains usagers ont tendance à s’occuper en attendant et à ne plus regarder devant soi. En ce qui concerne la France métropolitaine, on a pu observer une certaine disparité entre les départements, l’île de France reste toutefois le département le plus peuplé mais aussi où le nombre d’accident est conséquent. Certains facteurs, nous l’avons vu pouvaient inlfuencer le taux d’accidents comme la ceinture de sécurité où on dénombrait un pourcentage élevé dans certains départements mais cette observation n’est pas générale. Les différents modèles utilisés ont permis malgrè leur mauvaise qualité de déterminer certaines modalités qui influeraient sur le décès d’un usagers ou non, tels que : lorsque l’accident se produit hors agglomération le risque de décés est élevé ce qui paraît logique car la vitesse du véhicule est élevée, ou encore lorsque les accidents apparaissent la nuit. Nous avons terminé l’étude par la prédiction des accidents en se fiant à notre série temporelle et avons vu que les résultats obtenus nétaient pas 100% fiable car le nombre d’accident par jour fluctuait énormément d’un jour à l’autre.