Les accidents de la route ne sont pas sans conséquences, décès et bléssés graves peuvent parfois être évités. La prévention routière cherche notamment à réduire le nombre accidents en parallèle du nombre de victimes lors de ces chocs. Des bases de données recensant les caratéristiques des accidents sont établies à chaque trimestre afin d’effectuer un bilan et de pouvoir déterminer lorsque cela est possible les facteurs influant l’évolution du nombre d’accident par exemple. Lidée étant de prévenir des risques pris par les conducteurs parfois négligeant de leur propre sécurité mais aussi celle des autres usagers. Cette étude statistique portera uniquement sur la France métropolitaine et on tentera de répondre à la problématique suivante :
Comment peut-on expliquer l’évolution du taux d’accidents en France entre 2005 et 2017 ?
On commencera cette étude par l’analyse de nos bases de données, puis nous utiliserons les statistiques inférentielles afin de déterminer les facteurs influant le plus sur le taux d’accidents en France et nous terminerons par de la prédiction.
Les bases de données sont extraites du fichier BAAC qui répertorient l’intégralité des accidents corporels de la circulation intervenus durant une année précise en France métropolitaine ainsi que les départements d’Outre-mer (Guadeloupe, Guyane, Martinique, La Réunion et Mayotte depuis 2012) avec une description simplifiée. Cela comprend des informations de localisation de l’accident, telles que renseignées ainsi que des informations concernant les caractéristiques de l’accident et son lieu, les véhicules impliqués et leurs victimes.
Est considéré comme un accident corporel (mortel et non mortel) de la circulation routière, un accident qui : + implique au moins une victime, - survient sur une voie publique ou privée, ouverte à la circulation publique, - implique au moins un véhicule.
Un accident corporel implique un certain nombre d’usagers. Parmi ceux-ci, on distingue : - les personnes indemnes : impliquées non décédées et dont l’état ne nécessite aucun soin médical du fait de l’accident - les victimes : impliquées non indemnes.
Parmi les victimes, on distingue : - les personnes tuées : personnes qui décèdent du fait de l’accident, sur le coup ou dans les trente jours qui suivent l’accident - les personnes blessées : victimes non tuées.
Parmi les personnes blessées, il convient de différencier : - les blessés dits « hospitalisés » : victimes hospitalisées plus de 24 heures, - les blessés légers : victimes ayant fait l’objet de soins médicaux mais n’ayant pas été admises comme patients à l’hôpital plus de 24 heures.
Spécifications de la base : La base Etalab de données des accidents corporels de la circulation d’une année donnée, est répartie en 4 rubriques sous la forme pour chacune d’elles d’un fichier au format csv. 1. La rubrique CARACTERISTIQUES qui décrit les circonstances générales de l’accident 2. La rubrique LIEUX qui décrit le lieu principal de l’accident même si celui-ci s’est déroulé à une intersection 3. La rubrique VEHICULES impliqués 4. La rubrique USAGERS impliqués
Le nombre d’accidents de la route a tendance à évoluer au fur et à mesure des années. Cette évolution peut être du aux nouvelles mesures de sécurités mises en place par le gouvernement tels que les radars fixes, discriminant ou encore les radars appelés radar vitesse embarqué. Ces nouveaux outils permettent de limiter les infractions et par conséquent ont pour but de réduire le nombre d’accidents. Regardons la courbe d’évolution du nombre d’accidents et tentons de l’expliquer.
## Warning: package 'ggplot2' was built under R version 3.4.4
La courbe obtenue montre que le nombre d’accidents a considérablement diminué entre 2005 et 2017. En effet, on passe de 87 026 à 59432 en plus de 10 ans, soit une dimunition de près de 32%. Cette baisse s’explique par différentes mesures prises par le gouvernement concernant la sécurité routière. On note par exemple en 2006, le passage de la loi prévoyant l’aggravation des sanctions pour les excès de vitesse de 50 km/h et plus. En 2009, les premiers dispositifs de contrôle du franchissement des feux rouges sont installés, ou encore en 2012, où de même on renforce la sécurité routière cela passe par : - L’interdiction des avertisseurs de radars - Durcissement des sanctions contre l’usage d’un téléphone ou d’un appareil à écran en conduisant - Sécurisation renforcée des chantiers routiers et de la bande d’arrêt d’urgence - Obligation d’installer des bandes d’alerte sonore sur les autoroutes pour lutter contre l’endormissement au volant Ces efforts effectués en 2012 ont porté leur fruit car en 2013, le nombre d’accident est en dessous de la barre des 60000, la première année où le nombre d’accidents est le plus faible, minimal. Le nombre d’accidents ne se stabilisera malheuresement pas et dépassera de nouveau la barre des 60 000, mais si l’on regarde globalement on voit nettement une amélioration conséquente.
Voyons à présent si cette diminution a entrainé moins de victimes décédées, car les accidents ne sont malheuresement pas sans conséquences de nombreuses victimes sont hélas, tuées, hospitalisés, et d’autres chanceux sortent indemne du choc. Regardons à présent l’évolution du nombre de victimes de tués, bléssés et indemnes.
Les courbes rouge, bleue, verte et noire représentent donc l’évolution du nombre de victimes indemnes, bléssés légers, bléssées hospotalisés et tuées. On observe rapidemment que le nombre victimes tués lors d’un accident reste quasi constant voir fluctue légérement entre 2005 et 2017. On comprend alors que certes le nombre d’accidents a diminué mais le nombre de victimes tuées ne s’est pas autant amélioré comme on pourrait le croire à la vue du premier graphique. On note toutefois une diminution des victimes bléssées hospitalisées, on passe en dessous de la barre des 40000, ce qui est plutôt positif. Les courbes rouges et bleues qui respectivement correspondents au nombre de victimes sorties indemnes de l’accident et au nombre de victimes bléssés légèrement ont la même tendance, leur nombre a considérablement diminué passant de 70891 en 2005 à 47158 en 2017 pour les personnées bléssées légerement, et 80272 en 2005 à 56270 en 2017 pour les personnes indemnes. La diminution du nombre d’accidents a donc permis de diminuer les victimes bléssées hospitalisés, les personnes bléssés légérement ainsi que les indemnes.
Observons à présent quelles sont les tranches d’âges qui sont majoritairement le plus touchés par les accidents. On choisit de comparer les années 2005 et 2013 car elles correspondent aux années pour lesquelles respectivement le nombre d’accidents a été le maximum et le minimum. Afin d’avoir une entière comparaison, on ajoutera pour certaines analyses l’année 2017 plus récente qui permettra d’affirmer certaines interprétations ou pas.
Ces graphiques nous montre que la majorité des victimes d’accidents de la route ont entre 18 et 30 ans. Cette observation est valable pour l’année 2005 ainsi que pour l’année 2013. On note aussi que le nombre de décés et de bléssés hospitalisés dans cette tranche d’âge est le plus élevé. Le nombre de tué ainsi que pour le nombre de blessés hospitalisés est d’ailleurs plus élevé dans cette catégorie d’age. Notons de plus, que le nombre d’accidents a considérablement diminué, l’échelle a été modifie. On observe de plus, que pour l’année 2013 la répartition est plus étalé contrairement à l’année 2005.
Analysons les caractéristiques des accidents afin de déterminer certains facteurs qui influeraient plus que d’autres. Observons dans un premier temps les trajets pour lesquels le nombre de victimes tués et hospitalisés sont nombreux.
x = 0 non renseigne 1 : Domicile - travail 2 : Domicile - ecole 3 : Courses - Achats 4 : Utilisation professionnelle 5 : Promenade - loisirs 9 : Autre
On observe que les trajets où surviennent le plus d’accident en 2013 sont : Promenade - Loisirs, Domicile - travail, ainsi que utilisation professionnelle. Le nombre de tués est élevé notamment dans les trajets Promenade - Loisirs ainsi que l’utilisation professionnelle puis vient ensuite Domicile - travail. Les victimes d’accidents sont sur les mêmes trajets, on ne remarque aucune différence flagrante entre les années.
Regardons alors les conditions météorologiques et si ce facteur influence plus le nombre d’accidents. s’ils ont été en agglomération ou hors agglomératiion.
1 – Normale 2 – Pluie légère 3 – Pluie forte 4 – Neige - grêle 5 – Brouillard - fumée 6 – Vent fort - tempête 7 – Temps éblouissant 8 – Temps couvert 9 – Autre
D’après le graphique on peut constater à première vue qu’en temps normal et en temps de pluie légère la majorité des accidents de route sont en agglomération. Toutefois, en temps de pluie forte le pourcentage d’accident en agglomération et en dehors sont quasi à égalité.
Observons quel est le type de collision que l’on risque probablement le plus si l’on roule en agglomération ou hors agglomération.
Type de collision : 1 – Deux véhicules - frontale 2 – Deux véhicules – par l’arrière 3 – Deux véhicules – par le coté 4 – Trois véhicules et plus – en chaîne 5 – Trois véhicules et plus - collisions multiples 6 – Autre collision 7 – Sans collision
Le graphique montre que la majorité des accidents ont lieu entre deux voitures et dont le choc est sur le coté ou à l’arrière du véhicule en agglomération. Une quantité non négligeable d’accident ont lieu sans collision.
Regardons alors le type de manoeuvre effectuée avant le choc afin de mieux comprendre le comportement des conducteurs.
D’après le barplot, on peut conclure que la majorité des conducteurs n’ont pas changé de direction et sont restés dans le même sens ou la même file de cirdulation avant l’accident, on peut egalement tirer la conclusion suivante: une grande partie des accidents étaient suite à des tournants à gauche.
On souhaiterai désormais quels sont les types de véhicules impliqués le plus dans les accidents.
Le barplot montre les trois types de véhicule les plus impliqués dans les accidents de la route en France. On retrouve en première position, les voitures, en deuxième, les Bycyclettes et enfin on retrouve les Motocyclette. Les usagers en bycyclette et motocyclette sont les plus vulnérables car la carroserie de la bycyclette ou de leur motocyclette ne permet pas de protéger les conducteurs.
A présent regardons si la lumière a une influence sur le taux d’accidents en France, est ce que les accidents surviennent le plus la nuit ou le jour ?
##
## 1 2 3 4 5
## 59934 5040 7135 627 14290
##
## 1 2 3 4 5
## 40098 3564 4467 565 9703
On observe que la plupart des accidents surviennent en plein jour, la deuxieme catégorie ou l’on comptabilise le plus grand nombre d’accident est la nuit avec éclairage public allume, et nuit sans éclairage public. Il existe donc des endroits , où l’éclairage public n’y est pas encore installé.
L’ensemble de ces interprétations concernent la France métropolitaine, observons si ces mêmes interprétations sont valables pour chaque région. L’idée étant d’expliquer l’évolution du nombre d’accidents et tenter de déterminer des facteurs qui influeraient le nombre d’accidents. On choisit de comparer les années 2005 et 2013, car elles correspondent aux années pour lesquelles respectivement le nombre d’accidents a été le maximum et le minimum. Afin d’avoir une entière comparaison, on ajoutera pour certaines analyses l’année 2017 plus récente qui permettra d’affirmer certaines interprétations ou pas. Commençons donc tout d’abord par calculer le nombre d’accidents par région en 2005 et 2013.
## Warning: package 'raster' was built under R version 3.4.4
## Loading required package: sp
## Warning: package 'sp' was built under R version 3.4.4
On observe que pour l’année 2005, le nombre d’accidents pour chaque région est différent. En effet, on peut découper la France métropolitaine en 4 parties : le sud ou le nombre d’accident est compris entre 5000 et 10000 sauf pour la région du sud est, la partie qui va de la région Bretagne jusqu’à la région Bourgogne Franche Compté où le nombre d’accident est peu élevé variant de 0 à 5000, le nord où de meme les observations sont similaires au sud , et enfin la région Ile de France, région où le nombre d’accident est maximale et très élévé contrairement au reste de la France. Pour l’année 2013, on observe une évolution certaine, le nombre d’accident est plus homogène entre les régions, comme les régions Aquitaine Limousin Poitou Charentes et Languedoc Rousillon Midi-Pyrénées où le nombre d’accidents a considérablement diminué, notons que la partie sud a elle aussi évolué mais reste à un nombre d’accidents supérieur à 5000, ainsi que la régions île de france ou on passe de 20 955 à 18 134, mais demeure la région où le nombre d’accident est maximale. Ici, on pourrait diviser la France métropolitaine en 3 avec une grande majorité des régions avec un nombre d’accidents inférieur à 5000.
Les régions regroupent de nombreux départements et une disparité au sein des régions peuvent avoir lieu. Etudions à présent le nombre d’accident par département, et observons les graphiques suivant :
## Warning in t$dep = c(t2005[1:19], t2005[22:30], t2005[20:21],
## t2005[31:96]): Conversion automatique de LHS en liste
## Warning in t$dep = c(t2013[1:19], t2013[22:30], t2013[20:21],
## t2013[31:96]): Conversion automatique de LHS en liste
On observe bien qu’il reste des départements pour lesquels le nombre d’accidents est plus grand que les autres département formant leur région. La différence est flagrante en 2005, moins en 2013, c’est pour cela qu’on continuera l’étude sur les départements afin de ne pas négliger les différences entre les départements.
## [1] 100
## [1] 1351 1026 998 453 459 7312 585 494 393 709 738
## [12] 518 11395 1580 233 581 2065 856 825 978 892 1612
## [23] 940 251 1031 1316 1477 1606 1136 1521 2542 3745 604
## [34] 4824 3184 2335 785 1218 2761 449 941 995 2339 578
## [45] 2775 1464 373 975 266 2191 1366 1397 811 429 2280
## [56] 533 1726 2249 571 5414 1580 640 2709 2245 2278 817
## [67] 700 2778 1680 4893 439 1483 1596 817 1644 15195 2334
## [78] 3312 3681 531 1767 809 742 3013 1606 1099 1093 1421
## [89] 845 932 595 3667 4736 5345 4604 2928 1349 1545 1256
## [100] 1724
## [1] 886 692 712 300 318 3559 373 332 242 362 504 351 5286 1104
## [15] 154 379 1355 566 471 494 641 1041 589 160 739 904 962 1131
## [29] 813 885 1431 1545 435 2389 1865 1026 553 806 1876 313 656 748
## [43] 1594 372 1471 1015 244 660 187 1424 857 955 602 286 1496 322
## [57] 985 1435 336 3336 1124 428 1848 1465 1370 523 421 1867 1073 3114
## [71] 324 994 953 487 1046 6144 1277 2230 2184 332 1286 475 518 1549
## [85] 1104 716 741 975 591 680 361 2483 2441 2607 2596 1831 572 746
## [99] 247 655
## Warning in t$nombreacc = t2005bis: Conversion automatique de LHS en liste
## [1] 101
## [1] 817 535 394 250 202 3342 256 181 182 360 869
## [12] 423 7263 836 138 429 1107 659 459 375 588 454
## [23] 772 92 397 634 1001 515 732 1135 1373 1547 242
## [34] 3185 1937 1323 427 1292 1226 297 416 529 1136 283
## [45] 1283 623 164 319 122 1261 803 515 296 213 1116
## [56] 173 1077 891 342 2585 797 264 1353 1391 1423 458
## [67] 516 1247 656 3738 236 539 396 324 766 11466 1351
## [78] 1422 1878 383 952 232 345 1870 493 517 639 778
## [89] 397 451 357 2582 4473 4504 4371 1750 700 688 505
## [100] 1029 55
## [1] 607 349 303 176 148 1912 161 128 144 284 653 320 4337 626
## [15] 100 312 837 525 357 220 449 268 558 71 307 355 780 371
## [29] 505 835 840 1090 187 1347 1376 942 341 948 863 228 313 410
## [43] 885 223 850 402 101 230 96 956 557 371 227 155 862 128
## [57] 792 619 258 1704 603 193 956 892 1011 357 354 908 453 2158
## [71] 169 406 278 238 535 4517 954 1054 1397 268 774 164 246 1160
## [85] 312 366 508 599 284 351 278 1933 2723 2860 2816 1426 382 398
## [99] 246 650 27
## Warning in t$nombreacc = t2013bis: Conversion automatique de LHS en liste
Ces graphiques nous montre le pourcentage d’usagers portant la ceinture lors de l’accident. En 2005, on observe que de nombreux département ont un pourcentage d’usagers portant la ceinture compris entre 40 et 60%, ce qui implique que 40% à 60% d’usagers ne portaient pas la ceinture de sécurité lors de l’accident, ce qui est considérablement élevé. Ces départements sont situés notamment au sud de la France et concernent une majorité des départements qui longent la mer Méditerannée, d’autres sont situés au nord ouest de la France et note que l’Aquitaine fait aussi partie de ces départements. Le reste des départements ont un pourcentage d’usagers sécurisés lors de l’accident entre 60 et 80%. En 2013, on observe une réelle évolution de nombreux départements ont majoritairement un pourcentage entre 60 et 80%, et on retrouve même des départements situés au nord de la France qui ont un pourcentage compris entre 80 et 100%. Cette évolution explique alors la diminution du nombre de bléssés hospitalisés et légers. Un usager qui porte la ceinture de sécurité a moins de risque de blessures graves que celui qui ne la porte pas.
Observons à présent le pourcentage d’accident ayant lieu la nuit avec l’éclairage public non allumé ou absent. Nous obtenons alors les graphiques suivant :
## [1] 100
## Warning in t$nombreacc = t2005bis: Conversion automatique de LHS en liste
## [1] 101
## Warning in t$nombreacc = t2013bis: Conversion automatique de LHS en liste
La comparaison entre les deux graphiques ne permet pas de conclure quant à la possible corrélation entre l’éclairage non allumé ou absent et le nombre d’accidents survenus dans les départements. En effet, en 2005 on retrouve deux départements pour lesquels le pourcentage d’accidents survenus la nuit sans éclairage public ou non allumé est compris entre 20 et 25%, et une majorité comprise entre 10 et 15% tandis qu’en 2013, on dénombre 7 départements pour lequel le pourcentage est supérieur à 20% et une majorité des départements répartis entre 5 et 15%. Les 8 ans espaçant ces deux années n’ont pas permis de réduire le pourcentage d’accident la nuit dans un milieu où l’éclairage public est absent ou non allumé.
Tentons alors d’expliquer le nombre d’accidents en fonction des variables données par le biais de régression.
On souhaite à présent expliquer la variable “grav” qui prend la valeur 1 lorsque l’accident a entrainé un décès, 0 sinon, à l’aide de différentes variables explicatives qu’on prendra soin de convertir en binaire. Nous avons décidé pour chaque base de donnée de faire une régression, car le nombre de variables étant importantes et les modalités aussi, le résultat aurait été difficile à interpréter.
## Warning: package 'MASS' was built under R version 3.4.4
##
## Attaching package: 'MASS'
## The following objects are masked from 'package:raster':
##
## area, select
## [1] 87026
##
## Call:
## glm(formula = carac2005$grav ~ factor(carac2005$lum) + factor(carac2005$agg) +
## factor(carac2005$int) + factor(carac2005$atm) + factor(carac2005$col) +
## 1, family = binomial(link = "logit"), data = carac2005)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.2708 -0.2441 -0.1982 -0.1126 3.5232
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.02507 1.13975 -0.899 0.36845
## factor(carac2005$lum)2 0.37830 0.07625 4.962 6.99e-07 ***
## factor(carac2005$lum)3 0.72435 0.04893 14.804 < 2e-16 ***
## factor(carac2005$lum)4 -0.16418 0.28510 -0.576 0.56469
## factor(carac2005$lum)5 0.26544 0.06691 3.967 7.27e-05 ***
## factor(carac2005$agg)2 -1.47848 0.04870 -30.360 < 2e-16 ***
## factor(carac2005$int)1 -1.26029 1.13868 -1.107 0.26838
## factor(carac2005$int)2 -2.03287 1.14423 -1.777 0.07563 .
## factor(carac2005$int)3 -1.99111 1.14647 -1.737 0.08243 .
## factor(carac2005$int)4 -1.85766 1.17884 -1.576 0.11506
## factor(carac2005$int)5 -3.00306 1.51684 -1.980 0.04773 *
## factor(carac2005$int)6 -1.39315 1.15262 -1.209 0.22678
## factor(carac2005$int)7 -0.92241 1.21165 -0.761 0.44649
## factor(carac2005$int)8 0.51766 1.18106 0.438 0.66117
## factor(carac2005$int)9 -1.37147 1.14589 -1.197 0.23136
## factor(carac2005$atm)2 -0.37179 0.07510 -4.951 7.40e-07 ***
## factor(carac2005$atm)3 -0.10533 0.14278 -0.738 0.46068
## factor(carac2005$atm)4 -0.52310 0.18159 -2.881 0.00397 **
## factor(carac2005$atm)5 0.19116 0.14652 1.305 0.19201
## factor(carac2005$atm)6 0.68269 0.27502 2.482 0.01305 *
## factor(carac2005$atm)7 0.15574 0.20883 0.746 0.45582
## factor(carac2005$atm)8 0.26038 0.08645 3.012 0.00260 **
## factor(carac2005$atm)9 0.05491 0.14981 0.367 0.71395
## factor(carac2005$col)2 -1.61590 0.11125 -14.525 < 2e-16 ***
## factor(carac2005$col)3 -1.07618 0.07423 -14.499 < 2e-16 ***
## factor(carac2005$col)4 -1.96121 0.22401 -8.755 < 2e-16 ***
## factor(carac2005$col)5 -0.16798 0.08908 -1.886 0.05934 .
## factor(carac2005$col)6 -0.14998 0.05377 -2.789 0.00528 **
## factor(carac2005$col)7 -0.15634 0.06260 -2.498 0.01251 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 25181 on 87025 degrees of freedom
## Residual deviance: 21770 on 86997 degrees of freedom
## AIC: 21828
##
## Number of Fisher Scoring iterations: 8
## Start: AIC=21828.44
## carac2005$grav ~ factor(carac2005$lum) + factor(carac2005$agg) +
## factor(carac2005$int) + factor(carac2005$atm) + factor(carac2005$col) +
## 1
##
## Df Deviance AIC
## <none> 21770 21828
## - factor(carac2005$atm) 8 21826 21868
## - factor(carac2005$int) 9 21883 21923
## - factor(carac2005$lum) 4 21988 22038
## - factor(carac2005$col) 6 22390 22436
## - factor(carac2005$agg) 1 22781 22837
##
## Call:
## glm(formula = carac2005$grav ~ factor(carac2005$lum) + factor(carac2005$agg) +
## factor(carac2005$int) + factor(carac2005$atm) + factor(carac2005$col) +
## 1, family = binomial(link = "logit"), data = carac2005)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.2708 -0.2441 -0.1982 -0.1126 3.5232
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.02507 1.13975 -0.899 0.36845
## factor(carac2005$lum)2 0.37830 0.07625 4.962 6.99e-07 ***
## factor(carac2005$lum)3 0.72435 0.04893 14.804 < 2e-16 ***
## factor(carac2005$lum)4 -0.16418 0.28510 -0.576 0.56469
## factor(carac2005$lum)5 0.26544 0.06691 3.967 7.27e-05 ***
## factor(carac2005$agg)2 -1.47848 0.04870 -30.360 < 2e-16 ***
## factor(carac2005$int)1 -1.26029 1.13868 -1.107 0.26838
## factor(carac2005$int)2 -2.03287 1.14423 -1.777 0.07563 .
## factor(carac2005$int)3 -1.99111 1.14647 -1.737 0.08243 .
## factor(carac2005$int)4 -1.85766 1.17884 -1.576 0.11506
## factor(carac2005$int)5 -3.00306 1.51684 -1.980 0.04773 *
## factor(carac2005$int)6 -1.39315 1.15262 -1.209 0.22678
## factor(carac2005$int)7 -0.92241 1.21165 -0.761 0.44649
## factor(carac2005$int)8 0.51766 1.18106 0.438 0.66117
## factor(carac2005$int)9 -1.37147 1.14589 -1.197 0.23136
## factor(carac2005$atm)2 -0.37179 0.07510 -4.951 7.40e-07 ***
## factor(carac2005$atm)3 -0.10533 0.14278 -0.738 0.46068
## factor(carac2005$atm)4 -0.52310 0.18159 -2.881 0.00397 **
## factor(carac2005$atm)5 0.19116 0.14652 1.305 0.19201
## factor(carac2005$atm)6 0.68269 0.27502 2.482 0.01305 *
## factor(carac2005$atm)7 0.15574 0.20883 0.746 0.45582
## factor(carac2005$atm)8 0.26038 0.08645 3.012 0.00260 **
## factor(carac2005$atm)9 0.05491 0.14981 0.367 0.71395
## factor(carac2005$col)2 -1.61590 0.11125 -14.525 < 2e-16 ***
## factor(carac2005$col)3 -1.07618 0.07423 -14.499 < 2e-16 ***
## factor(carac2005$col)4 -1.96121 0.22401 -8.755 < 2e-16 ***
## factor(carac2005$col)5 -0.16798 0.08908 -1.886 0.05934 .
## factor(carac2005$col)6 -0.14998 0.05377 -2.789 0.00528 **
## factor(carac2005$col)7 -0.15634 0.06260 -2.498 0.01251 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 25181 on 87025 degrees of freedom
## Residual deviance: 21770 on 86997 degrees of freedom
## AIC: 21828
##
## Number of Fisher Scoring iterations: 8
La méthode backward nous renvoie alors 27 variables avec les coefficients associés pour un AIC s’élevant à 21828 ce qui extrêmement grand et qui nous entrainerait à dire que le modèle est mauvais. Regardons toutefois les variables qui ont été significatives dans le modèle. Celui-ci retient alors pour la variable lumière les modalités crépuscule, nuit sans éclairage public et nuit avec éclairage public allumé. Pour la variable intersection, seulement une modalité est retenue, il s’agit de l’intersection à plus de 4 branches. En ce qui concerne la variable atmosphère, 4 modalités ont été retenues : pluie légère, Neige grêle, vent fort et tempête et enfin temps couvert. Pour finir toutes les modalités de la variable collision ont été retenues. D’après le modèle on pourrait donc expliquer un décès d’un usager lors de l’accident par l’ensemble de ces modalités. La méthode n’est aussi pas concluante, passons alors à la méthode de RIDGE.
On commence tout d’abord par tracer les coefficients des variables en fonction du loglambda variant de -6 à 3. Remarquons que l’échelle des coefficients est très petite de l’ordre de 10^-1.
## Warning: package 'glmnet' was built under R version 3.4.4
## Loading required package: Matrix
## Loading required package: foreach
## Warning: package 'foreach' was built under R version 3.4.4
## Loaded glmnet 2.0-16
## Warning: package 'FactoMineR' was built under R version 3.4.4
Il nous faut donc trouver le lambda optimal pour cela on fait appel à la méthode de validation croisée, dont le critère est l’AUC. L’AUC mesure la qualité d’un score trouvé pour la classification binaire. Plus l’AUC est grand, meilleur est le test. La validation croisée avec critère AUC marche uniquement sur l’ensemble des données.
On a donc tracé l’AUC en fonction du log lambda. On observe que l’AUC est globalement croissant pour des lambdas allant de -6 à 3. L’AUC est maximal pour le dernier point et vaut environ à l’oei nu 0.0318, ce qui est relativement faible. Afin d’avoir de résultat précis, affichons ci-dessous les lambdas, l’AUC associé et le nombre de coefficients non-nuls (qui n’évolue pas puisque nous utilisons une régression ridge).
## [,1] [,2] [,3]
## s0 29.920068537 0.03181462 33
## s1 27.262052114 0.03177542 33
## s2 24.840166543 0.03176879 33
## s3 22.633434612 0.03176423 33
## s4 20.622742663 0.03175926 33
## s5 18.790675045 0.03175384 33
## s6 17.121363265 0.03174794 33
## s7 15.600348542 0.03174151 33
## s8 14.214456575 0.03173450 33
## s9 12.951683431 0.03172689 33
## s10 11.801091572 0.03171862 33
## s11 10.752715123 0.03170964 33
## s12 9.797473548 0.03169990 33
## s13 8.927093002 0.03168935 33
## s14 8.134034664 0.03167793 33
## s15 7.411429444 0.03166559 33
## s16 6.753018479 0.03165228 33
## s17 6.153098930 0.03163794 33
## s18 5.606474580 0.03162252 33
## s19 5.108410831 0.03160596 33
## s20 4.654593693 0.03158821 33
## s21 4.241092418 0.03156923 33
## s22 3.864325457 0.03154898 33
## s23 3.521029434 0.03152742 33
## s24 3.208230884 0.03150453 33
## s25 2.923220495 0.03148029 33
## s26 2.663529643 0.03145471 33
## s27 2.426909011 0.03142778 33
## s28 2.211309103 0.03139953 33
## s29 2.014862497 0.03137000 33
## s30 1.835867666 0.03133925 33
## s31 1.672774243 0.03130734 33
## s32 1.524169590 0.03127439 33
## s33 1.388766564 0.03124048 33
## s34 1.265392370 0.03120576 33
## s35 1.152978400 0.03117037 33
## s36 1.050550977 0.03113446 33
## s37 0.957222923 0.03109823 33
## s38 0.872185877 0.03106184 33
## s39 0.794703288 0.03102549 33
## s40 0.724104038 0.03098938 33
## s41 0.659776631 0.03095369 33
## s42 0.601163894 0.03091863 33
## s43 0.547758150 0.03088436 33
## s44 0.499096826 0.03085108 33
## s45 0.454758439 0.03081892 33
## s46 0.414358953 0.03078803 33
## s47 0.377548446 0.03075853 33
## s48 0.344008082 0.03073051 33
## s49 0.313447353 0.03070405 33
## s50 0.285601554 0.03067920 33
## s51 0.260229499 0.03065600 33
## s52 0.237111427 0.03063445 33
## s53 0.216047102 0.03061455 33
## s54 0.196854073 0.03059626 33
## s55 0.179366099 0.03057955 33
## s56 0.163431710 0.03056436 33
## s57 0.148912887 0.03055062 33
## s58 0.135683876 0.03053825 33
## s59 0.123630095 0.03052718 33
## s60 0.112647138 0.03051732 33
## s61 0.102639877 0.03050858 33
## s62 0.093521633 0.03050086 33
## s63 0.085213429 0.03049409 33
## s64 0.077643303 0.03048817 33
## s65 0.070745686 0.03048302 33
## s66 0.064460834 0.03047855 33
## s67 0.058734311 0.03047471 33
## s68 0.053516517 0.03047141 33
## s69 0.048762257 0.03046858 33
## s70 0.044430352 0.03046617 33
## s71 0.040483282 0.03046414 33
## s72 0.036886859 0.03046243 33
## s73 0.033609932 0.03046100 33
## s74 0.030624119 0.03045980 33
## s75 0.027903556 0.03045881 33
## s76 0.025424681 0.03045799 33
## s77 0.023166023 0.03045731 33
## s78 0.021108017 0.03045676 33
## s79 0.019232839 0.03045632 33
## s80 0.017524247 0.03045596 33
## s81 0.015967441 0.03045568 33
## s82 0.014548937 0.03045545 33
## s83 0.013256450 0.03045528 33
## s84 0.012078783 0.03045515 33
## s85 0.011005738 0.03045505 33
## s86 0.010028018 0.03045498 33
## s87 0.009137157 0.03045493 33
## s88 0.008325437 0.03045490 33
## s89 0.007585828 0.03045488 33
## s90 0.006911924 0.03045488 33
## s91 0.006297888 0.03045488 33
## s92 0.005738401 0.03045489 33
## s93 0.005228617 0.03045491 33
## s94 0.004764121 0.03045492 33
## s95 0.004340890 0.03045494 33
## s96 0.003955257 0.03045497 33
## s97 0.003603883 0.03045499 33
## s98 0.003283724 0.03045501 33
Il nous faut retenir le lambda pour lequel l’AUC est maximal.
## [1] 0.006911924
## [1] 0.8721859
## [1] 0.03045488
On choisit donc le lambda pour lequel l’AUC est maximal, il s’avère qu’il s’agit du lambda choisi par le critère 1SE qui s’élève à 0.4990968 avec un AUC à 0.03084997, ce qui très faible. Observons alors où ce situe le lambda choisi et quels sont les coefficients des variables associées à ce lambda pour lequel l’AUC est maximal.
La ligne verticale rouge nous donne le lambda optimal choisi. On voit aussi que les coefficients des variables sont très peu élevés si l’on prend le lambda pour lequel l’AUC est maximal. Affichons plus précisément les coefficients des variables et interprétons les.
## 34 x 1 sparse Matrix of class "dgCMatrix"
## 1
## (Intercept) 0.0365926324
## lum1 -0.0033141368
## lum2 0.0012803185
## lum3 0.0120403355
## lum4 -0.0022395776
## lum5 -0.0018182721
## agg1 0.0085358395
## agg2 -0.0085356960
## 0 0.0134728241
## int1 0.0032544271
## int2 -0.0032503337
## int3 -0.0031390537
## int4 -0.0026543850
## int5 -0.0036557773
## int6 -0.0012503508
## int7 -0.0004878940
## int8 0.0219410107
## int9 0.0002068581
## atm1 -0.0005606802
## atm2 -0.0015106387
## atm3 0.0005622595
## atm4 -0.0011302127
## atm5 0.0069381994
## atm6 0.0078771121
## atm7 0.0001184411
## atm8 0.0031455578
## atm9 0.0046942216
## col1 0.0050504431
## col2 -0.0042852518
## col3 -0.0038846058
## col4 -0.0046798259
## col5 0.0036295984
## col6 0.0016940260
## col7 0.0041505884
On a ainsi le détail des coefficients pour chaque variable. Les coefficients comme le graphique le démontrait sont bas de l’ordre de 10^-3 jusqu’à 10^-4. Pour les interpréter, il faudrait calculer l’exponentielle de tous les coefficients des variables. Toutes les variables sont quasi égales à 0 et l’exponentielle de ces coefficients sont égales à 1. Le modèle retient donc toutes les variables avec un coefficient d’à peu près égales à 1. On observe cependant que les quatre variables pour lesquels le coefficient est le plus élevé de tous sont lum3 qui correspond à Nuit sans éclairage public et agg1 qui correspond à – Hors agglomération, et int8 et in1 qui correspondent à Hors intersection et Passage à niveau. Ces résultats ne correspond en aucun cas au résultat obtenu par la méthode backward.
Utilisons alors la méthode LASSO afin de sélectionner les variables significatives. Le procédé est le même, on commence par tracer les coefficients des différentes variables en fonction de log lambda. On utilise par la suite la méthode de validation croisée en prenant soin de choisir le critère ici, l’AUC. On garde enfin le lambda pour lequel l’AUC est maximal.
Commençons donc par tracer les coefficients des variables en fonction du log lambda.
On utilise comme précédemment dans la méthode de RIDGE, la validation croisée qui permet de choisir le lambda optimal. On trace alors l’AUC en fonction du log de lambda et on obtient le graphique suivant :
Le graphique présente donc l’AUC en fonction du log lambda. On observe une tendance croissante de l’AUC. En effet, plus le log lambda est élevé, plus l’AUC augmente. Les deux lignes verticales représentent les deux valeurs de lambda optimaux, lambda pour lequel l’AUC est maximal, et le lambda choisi par le critère 1-SE.
Afin d’avoir de résultat précis, affichons ci-dessous les lambdas, l’AUC associé et le nombre de coefficients non-nuls (qui évolue puisque nous utilisons une régression lasso).
## [,1] [,2] [,3]
## s0 2.992007e-02 0.03180985 0
## s1 2.726205e-02 0.03166595 2
## s2 2.484017e-02 0.03153977 2
## s3 2.263343e-02 0.03143488 2
## s4 2.062274e-02 0.03134352 3
## s5 1.879068e-02 0.03124006 3
## s6 1.712136e-02 0.03115050 3
## s7 1.560035e-02 0.03107599 3
## s8 1.421446e-02 0.03101413 3
## s9 1.295168e-02 0.03096277 3
## s10 1.180109e-02 0.03092013 3
## s11 1.075272e-02 0.03088445 3
## s12 9.797474e-03 0.03084869 4
## s13 8.927093e-03 0.03081392 4
## s14 8.134035e-03 0.03078387 4
## s15 7.411429e-03 0.03074562 5
## s16 6.753018e-03 0.03071127 6
## s17 6.153099e-03 0.03068181 6
## s18 5.606475e-03 0.03065687 6
## s19 5.108411e-03 0.03063123 7
## s20 4.654594e-03 0.03060761 8
## s21 4.241092e-03 0.03058740 8
## s22 3.864325e-03 0.03057017 10
## s23 3.521029e-03 0.03055393 10
## s24 3.208231e-03 0.03053918 10
## s25 2.923220e-03 0.03052648 11
## s26 2.663530e-03 0.03051539 11
## s27 2.426909e-03 0.03050576 12
## s28 2.211309e-03 0.03049745 13
## s29 2.014862e-03 0.03049035 14
## s30 1.835868e-03 0.03048431 14
## s31 1.672774e-03 0.03047911 17
## s32 1.524170e-03 0.03047458 18
## s33 1.388767e-03 0.03047032 18
## s34 1.265392e-03 0.03046661 18
## s35 1.152978e-03 0.03046361 18
## s36 1.050551e-03 0.03046107 18
## s37 9.572229e-04 0.03045897 18
## s38 8.721859e-04 0.03045729 19
## s39 7.947033e-04 0.03045597 20
## s40 7.241040e-04 0.03045494 21
## s41 6.597766e-04 0.03045417 21
## s42 6.011639e-04 0.03045358 23
## s43 5.477582e-04 0.03045314 24
## s44 4.990968e-04 0.03045278 24
## s45 4.547584e-04 0.03045243 26
## s46 4.143590e-04 0.03045218 26
## s47 3.775484e-04 0.03045200 26
## s48 3.440081e-04 0.03045187 26
## s49 3.134474e-04 0.03045181 27
## s50 2.856016e-04 0.03045179 27
## s51 2.602295e-04 0.03045174 28
## s52 2.371114e-04 0.03045169 29
## s53 2.160471e-04 0.03045166 29
## s54 1.968541e-04 0.03045165 29
## s55 1.793661e-04 0.03045165 30
## s56 1.634317e-04 0.03045167 30
## s57 1.489129e-04 0.03045169 30
## s58 1.356839e-04 0.03045172 30
## s59 1.236301e-04 0.03045174 30
## s60 1.126471e-04 0.03045178 30
## s61 1.026399e-04 0.03045183 30
## s62 9.352163e-05 0.03045187 30
## s63 8.521343e-05 0.03045192 30
## s64 7.764330e-05 0.03045197 30
## s65 7.074569e-05 0.03045201 30
## s66 6.446083e-05 0.03045205 30
## s67 5.873431e-05 0.03045209 30
## [1] 0.0001968541
## [1] 0.008927093
## [1] 0.03045165
Parmi toutes les valeurs de lambda, il nous faut retenir le lambda pour lequel l’AUC est maximal. On choisit donc le lambda choisi par le critère 1SE car à cette valeur l’AUC est égal à 0.03081392. Observons désormais où est ce que se situe le lambda qui a été retenu sur le graphique.
La ligne verticale bleu correspond au lambda choisi par le critère 1SE. La ligne verticale rouge correspond au lambda optimal choisi, celui pour lequel l’AUC est maximal. Elle coupe les courbes des coefficients des variables en un certain point. Ce sont ces coefficients que l’on considérera par la suite. On observe que pour trois variables, les coefficients sont différents de 0, tandis que d’autres sont à zéros. Affichons plus précisément les coefficients des variables et interprétons les.
## 34 x 1 sparse Matrix of class "dgCMatrix"
## 1
## (Intercept) 2.271679e-02
## lum1 -5.144180e-03
## lum2 6.544610e-03
## lum3 4.741112e-02
## lum4 -6.811078e-03
## lum5 .
## agg1 4.857271e-02
## agg2 -1.258555e-12
## 0 6.132106e-02
## int1 5.631407e-03
## int2 -2.349756e-03
## int3 -1.173130e-03
## int4 -6.678994e-04
## int5 -2.077313e-03
## int6 2.195272e-03
## int7 7.078046e-03
## int8 1.224609e-01
## int9 .
## atm1 .
## atm2 -1.007318e-02
## atm3 -2.449593e-03
## atm4 -1.611970e-02
## atm5 1.451070e-02
## atm6 3.357495e-02
## atm7 6.081724e-04
## atm8 1.114271e-02
## atm9 6.054158e-03
## col1 1.061997e-02
## col2 -3.014188e-02
## col3 -2.007716e-02
## col4 -3.696089e-02
## col5 1.960768e-03
## col6 .
## col7 3.711561e-03
## [1] "lum1" "lum2" "lum3" "lum4" "agg1" "agg2" "0" "int1" "int2" "int3"
## [11] "int4" "int5" "int6" "int7" "int8" "atm2" "atm3" "atm4" "atm5" "atm6"
## [21] "atm7" "atm8" "atm9" "col1" "col2" "col3" "col4" "col5" "col7"
On a ainsi le détail des coefficients pour chaque variable. Les variables dont le coefficient n’est pas renseigné, sont égales à 0. 29 variables sont retenues, dont certaines avec des coefficients plus élevés que d’autres, c’est le cas des variables int8 et agg1. Afin d’interpréter ces variables on calcule l’exponentielle de leurs coefficient, toutefois toutes sont proches de 0. Les variables qui influent le plus sur sont donc le passage à niveau et l’hors agglomération. Les autres variables influent aussi sur la variable réponse cependant à des degrés différents. Ainsi le décès d’un usager peut s’expliquer par toutes les variables sélectionnées par la méthode LASSO, en partie les variables int8 et agg1.
Nous souhaitons prédire le nombre d’accidents, pour cela nous avons construit une série temporelle à partir du nombre d’accidents par jour en France entre 2005 et 2017 afin d’avoir un nombre conséquent d’observations.
## Warning: package 'tseries' was built under R version 3.4.4
## [1] 4383
## [1] 180 137 234 279 270 281 271 199 164 262
Le graphique montre bien que le nombre d’accidents par jour avait tendance à baisser entre 2005 et 2013 avant qu’il ne croit légèrement entre 2013 et 2017.
La notion de stationnarité caractérise la capacité d’un processus à se décorréler totalement de l’indice temporel. Ainsi la loi du processus, bien que restant souvent inconnue, sera bien plus aisée à manipuler par l’intermédiaire de ses propriétés d’espérance et de covariance.
En utilisant la fonction d’autocorrélation entre les différentes valeurs observées de la série, nous avons obtenu le grahique. Notons que le premier aspect qui se dessine est : la moyenne changeante. En utilisant la fonction d’autocorrélation entre les différentes valeurs observées de la série. Ainsi du fait de l’observation de là à la moyenne changeanteante, on conclut que la série n’est pas stationaire.
Afin de confirmer l’hypothèse tirée ci-dessus sur la stationnarité de la série on procède à un test statistique qui vise à vérifier l’hypothèse nulle: “la série temporelle est stationnaire” contre l’hypothèse alternative “la série temporelle n’est pas stationnaire”.
##
## KPSS Test for Level Stationarity
##
## data: X
## KPSS Level = 20.726, Truncation lag parameter = 10, p-value = 0.01
## [1] FALSE
La sortie de ce test rend True si l’hypothèse nulle est vérifiée or ici on peut lire FALSE avec une p-value très faible ce qui confirme la non-stationnarité de la série.
Voici à quoi ressemble une série chronologique non stationnaire c’est une série qui ne dépend pas du temps et qui ne présente aucune tendance.
Et voici à quoi ressemble la fonction d’autocorrélation d’une série chronologique non stationnaire, notons que les corrélations ne présentent pas des fluctuations à travers le temps.
On procéde dans un premier temps par le choix des paramètres qui minimisent le critère AIC:
## [1] 4 1 4
Visualisation des prédictions.
## Time Series:
## Start = 4384
## End = 4503
## Frequency = 1
## [1] 122.5998 131.8826 105.8724 113.3982 134.5499 114.5073 100.0281
## [8] 125.5185 128.5696 102.0456 111.0684 133.6740 114.6474 100.5291
## [15] 125.7724 128.6158 102.1468 111.0836 133.5310 114.6273 100.6318
## [22] 125.7268 128.5328 102.2356 111.1329 133.4236 114.6267 100.7389
## [29] 125.6792 128.4466 102.3212 111.1808 133.3168 114.6264 100.8456
## [36] 125.6319 128.3611 102.4064 111.2282 133.2107 114.6262 100.9516
## [43] 125.5850 128.2763 102.4910 111.2753 133.1053 114.6262 101.0568
## [50] 125.5382 128.1920 102.5752 111.3220 133.0005 114.6262 101.1614
## [57] 125.4917 128.1083 102.6589 111.3683 132.8964 114.6263 101.2653
## [64] 125.4454 128.0252 102.7421 111.4142 132.7929 114.6264 101.3685
## [71] 125.3993 127.9427 102.8248 111.4598 132.6901 114.6267 101.4711
## [78] 125.3534 127.8607 102.9070 111.5050 132.5879 114.6270 101.5729
## [85] 125.3078 127.7794 102.9887 111.5499 132.4864 114.6274 101.6741
## [92] 125.2624 127.6986 103.0700 111.5943 132.3855 114.6279 101.7746
## [99] 125.2172 127.6184 103.1508 111.6385 132.2852 114.6285 101.8744
## [106] 125.1722 127.5387 103.2311 111.6822 132.1855 114.6291 101.9736
## [113] 125.1274 127.4597 103.3110 111.7256 132.0865 114.6298 102.0721
## [120] 125.0829
En rouge on voit le nombre d’accidents par jours pour les trois premiers mois de 2018,d’ores et déja on peut constater que ces prévisions ne représentent pas un grande écart entre eux contrairement aux écarts importants du nombre d’accidents enregistrées entre les journées.
L’ensemble des analyses descriptives ont permis de visualiser de manière plus intéressante les données. Elles ont aussi permises de mettre en évidence la catégorie d’âge des usagers la plus touchée, il s’agit de la tranche d’âge 18-30 ans. La prévention routière pourra ainsi cibler les conducteurs qui présentent alors le plus de risque d’avoir un accident. Les trajets où l’on observe le plus grand nombre d’accidents sont les loisirs ce qui peut en premier lieu surprendre. On note d’ailleurs le plus d’accidents en agglomération où la concentration est moindre lors des bouchons par exemple, certains usagers ont tendance à s’occuper en attendant et à ne plus regarder devant soi. En ce qui concerne la France métropolitaine, on a pu observer une certaine disparité entre les départements, l’île de France reste toutefois le département le plus peuplé mais aussi où le nombre d’accident est conséquent. Certains facteurs, nous l’avons vu pouvaient inlfuencer le taux d’accidents comme la ceinture de sécurité où on dénombrait un pourcentage élevé dans certains départements mais cette observation n’est pas générale. Les différents modèles utilisés ont permis malgrè leur mauvaise qualité de déterminer certaines modalités qui influeraient sur le décès d’un usagers ou non, tels que : lorsque l’accident se produit hors agglomération le risque de décés est élevé ce qui paraît logique car la vitesse du véhicule est élevée, ou encore lorsque les accidents apparaissent la nuit. Nous avons terminé l’étude par la prédiction des accidents en se fiant à notre série temporelle et avons vu que les résultats obtenus nétaient pas 100% fiable car le nombre d’accident par jour fluctuait énormément d’un jour à l’autre.