Projet Open Data : Flux de vélos de type boucle dans Bordeaux Métropole
Le vélo est l’un des moyens de déplacement les plus rapides, économiques et fiables surtout en milieu urbain. C’est pourquoi les autorités de la ville de Bordeaux orientent les gens vers ce moyen de transport et construisent de plus en plus des pistes cyclables. Dans ce projet, nous voulons étudier le flux des vélos en libre service dans 32 différentes stations de la ville de Bordeaux de 2021 à 2022. Pour cela nous disposons de deux jeux de données récupérés sur le site de l’ATELIER OPEN DATA Bordeaux métropole dont la dernière mise à jour remonte au 8 février 2022.
Le premier jeu de données: Capteur de trafic vélo - historique horaire va nous permettre de commencer par une cartographie afin de repérer les emplacements des stations grâce aux coordonnées géographiques (longitude et latitude).
Présentation des jeux de données
Jeu de donnée Capteur de trafic vélo
date <dttm> | stations <chr> | comptage_5m <dbl> | |
---|---|---|---|
2021-04-02 09:00:00 | Z601CT8 | 32 | |
2021-04-02 19:00:00 | Z601CT8 | 9 | |
2021-04-02 20:00:00 | Z601CT8 | 13 | |
2021-04-02 21:00:00 | Z601CT8 | 1 | |
2021-04-03 02:00:00 | Z601CT8 | 1 | |
2021-04-03 06:00:00 | Z601CT8 | 23 | |
2021-04-03 10:00:00 | Z601CT8 | 23 | |
2021-04-03 11:00:00 | Z601CT8 | 19 | |
2021-04-03 13:00:00 | Z601CT8 | 27 | |
2021-04-03 17:00:00 | Z601CT8 | 14 |
Nous avons une première base de données comportant 303.872 lignes correspondant aux nombre d’heures entre le 8 Janvier 2021 à partir de 4h et le 7 Février 2022 à 22h. Les variables associées à ces lignes sont:
- date indiquant la date et l’heure de comptage;
- stations indiquant le numéro des stations;
- comptage_5m indiquant le nombre de comptage de vélos dans chaque station;
- latitude et longitude indiquant les coordonnées géographiques des stations,
- libelle indiquant l’adresse des stations.
## date stations comptage_5m
## Min. :2021-01-08 04:00:00 Length:303872 Min. : 0.00
## 1st Qu.:2021-04-17 01:45:00 Class :character 1st Qu.: 0.00
## Median :2021-07-24 22:30:00 Mode :character Median : 5.00
## Mean :2021-07-24 23:47:18 Mean : 26.86
## 3rd Qu.:2021-11-01 00:15:00 3rd Qu.: 30.00
## Max. :2022-02-07 22:00:00 Max. :727.00
## NA's :623
## libelle latitude longitude
## Length:303872 Min. :44.79 Min. :-0.6635
## Class :character 1st Qu.:44.83 1st Qu.:-0.5990
## Mode :character Median :44.84 Median :-0.5814
## Mean :44.84 Mean :-0.5770
## 3rd Qu.:44.85 3rd Qu.:-0.5532
## Max. :44.89 Max. :-0.5122
## NA's :32 NA's :32
Les statistiques ci-dessus nous indiquent que le nombre de comptage de vélos maximal dans ce jeu de données est 727 et le nombre minimal vaut 0.De plus, nous avons 32 coordonnées géographiques manquantes et 623 valeurs manquantes dans la variable comptage de vélos dû à des stations inconnues. Nous supprimons donc de notre jeu de données les lignes dont les coordonnées géographiques comportent des valeurs manquantes.
## date stations comptage_5m
## Min. :2021-01-08 04:00:00 Length:303218 Min. : 0.00
## 1st Qu.:2021-04-16 20:00:00 Class :character 1st Qu.: 0.00
## Median :2021-07-25 09:00:00 Mode :character Median : 5.00
## Mean :2021-07-25 03:43:25 Mean : 26.86
## 3rd Qu.:2021-11-01 06:00:00 3rd Qu.: 30.00
## Max. :2022-02-07 22:00:00 Max. :727.00
## libelle latitude longitude
## Length:303218 Min. :44.79 Min. :-0.6635
## Class :character 1st Qu.:44.83 1st Qu.:-0.5988
## Mode :character Median :44.84 Median :-0.5793
## Mean :44.84 Mean :-0.5769
## 3rd Qu.:44.85 3rd Qu.:-0.5448
## Max. :44.89 Max. :-0.5123
Nous n’avons plus de valeurs manquantes dans la base. Nous pouvons maintenant repérer la position des stations à travers la cartographie suivante:
Visualisation des stations de vélos sur la carte de la ville de Bordeaux.
Nous avons au total 32 différentes stations de vélo en libre services dans la ville de bordeaux. On peut observer des proximités entre les stations. Certaines sont tellement proches qu’on arrive pas à les distinguer sans faire un zoom, c’est le cas des deux stations situées au Pont de pierre vers Stalingrad (Z203CT7) et au Pont de pierre vers Bir Hakeim (Z203CT6); des deux autres stations situées au 37 cours du Marechal Juin vers Boulevards (Z201CT5) et au 37 cours du Marechal Juin vers Pay Berland (Z201CT4). On peut donc supposer des comportements similaires dans chacune des deux stations. Par ailleurs, la majorité des stations sont regroupées par paire sauf celles autour du carrefour Barrière Saint Augustin situées à l’intersection de la rue du Général de Laminat et celle du Boulevard Antoine Gauthier.
Par la suite, nous créons une matrice de taille avec (nombre d’heures entre le 8 Janvier 2021 à partir de 4h et le 7 Février 2022 à 22h) dont chaque entrée est le nombre de comtage de vélos issue des observations par heures et pour la station . Nous faisons cela pour voir le lien entre les stations.
length(dates$Heures)
## [1] 9495
On peut remarquer ici qu’entre le 8 Janvier 2021 à partir de 4h et le 7 Février 2022 à 22h on à comptages par heure.
Jeu de données calendier des vacances scolaires.
Date <date> | Calendrier Zone A <chr> | Calendrier Zone B <chr> | |
---|---|---|---|
2017-07-08 | Vacances d'été | Vacances d'été | |
2017-08-10 | Vacances d'été | Vacances d'été | |
2017-08-19 | Vacances d'été | Vacances d'été | |
2017-08-27 | Vacances d'été | Vacances d'été | |
2017-09-07 | Hors Vacances | Hors Vacances | |
2017-09-11 | Hors Vacances | Hors Vacances | |
2017-10-18 | Hors Vacances | Hors Vacances | |
2017-11-07 | Hors Vacances | Hors Vacances | |
2017-11-14 | Hors Vacances | Hors Vacances | |
2017-12-15 | Hors Vacances | Hors Vacances |
Dans cette base de données, nous avons par zone le calendrier des vacances scolaires de 2017 à 2022. La ville de Bordeaux étant classé dans la zone A, nous allons récupérer le calendrier de la zone A du 8 Janvier 2021 au 7 Février 2022. Pour la suite du travail, nous avons décider de recoder cette variable en variable qualitative binaire (Yes pour toutes les catégories de vacances et No pour hors vacances). Nous faisons la jointure entre ces données et le premier jeu de données et nous avons notre base ci-dessous
Jeu de données final
Heures <dbl> | Z203CT7 <dbl> | Z201CT4 <dbl> | Z201CT5 <dbl> | Z901CT6 <dbl> | Z401CT9 <dbl> | Z601CT7 <dbl> | Z401CT12 <dbl> | Z502CT24 <dbl> | |
---|---|---|---|---|---|---|---|---|---|
1 | 9 | 0 | 4 | 5 | 3 | 4 | 1 | 0 | |
2 | 35 | 17 | 17 | 4 | 17 | 4 | 7 | 3 | |
3 | 133 | 50 | 53 | 39 | 62 | 24 | 31 | 19 | |
4 | 332 | 112 | 131 | 78 | 171 | 55 | 120 | 26 | |
5 | 261 | 95 | 95 | 50 | 138 | 28 | 83 | 5 | |
6 | 129 | 61 | 47 | 25 | 80 | 17 | 43 | 3 | |
7 | 131 | 59 | 38 | 20 | 76 | 39 | 52 | 11 | |
8 | 208 | 97 | 76 | 30 | 104 | 69 | 73 | 16 | |
9 | 190 | 85 | 90 | 60 | 107 | 64 | 90 | 17 | |
10 | 157 | 83 | 75 | 43 | 106 | 41 | 86 | 11 |
Analyse descriptive
Analyse univariée
Le nombre de comptages de vélos dans cette station varie en moyenne entre 0 et 100 par heure.
Par contre le nombre de comptages de vélo dans cette station par heure varie entre 0 et 150 au début et revient à 0 jusqu’à ce jour. On peut en déduire que cette station est fermée et qu’elle n’apportera pas d’information dans la suite, nous la retirons du jeu de données.
Analyse bivariée
Matrice de correlation de Pearson entre les variables quantitatives
On peut noter que seule la station Z24CT23 n’est liée à aucune autre station, toutes les autres stations sont fortement liées entres elles. Ce résultat nous pousse à penser aux méthodes de réductions de dimensions.
Visualisation des flux de vélos dans quelques stations en fonction des vacances
On visualise ici le nombre de comptages de vélos par jour colorié en fonction de la variable “vacances” au niveau de la station Z24CT23 située sur l’Avenue de Magudas sens entrant vers Le Haillan. On remarque que de janvier 2021 à décembre 2021, on a plutôt peu de mouvements sur cette station et ça remonte considérablement à partir de janvier 2022. C’est ce qui nous a poussées à vouloir voir ce qui se passe dans la station située sur la même avenue mais sens sortant.
On voit donc sur ce graphique le nombre de comptages de vélos par jour colorié en fonction de la variable “vacances” au niveau de la station Z24CT24 située sur l’Avenue de Magudas sens sortant vers Le Haillan. On remarque exactement l’opposé de ce qui se passe dans l’autre station. Les deux stations semblent être complémentaires.
C’est le graphe qui représente le nombre de comptages de vélos par jour au niveau de la 24ème station. Pour faire notre prédiction, nous avons choisi cette station qui est plutôt bien située dans la ville de Bordeaux
Analyse exploratoire
Dans toute la suite, nous faisons les analyses sur deux jeux de données distingués par les vacances scolaires. Ainsi, le premier jeu de données contient l’ensemble du jeu de données précédent filtré sur Vacances = Yes et le deuxième jeu de données sera donc filtré sur Vacances = No.De plus pour des raisons de puissance de calcul, nous créons pour chaque jeu de données une nouvelle matrice de taille avec le nombre de jours compté dans chaque jeu de données dans laquelle chaque entrée est le nombre de comptage de vélos issue des observations moyennées par jours sur les heures, pour la station .
Analyse en composantes principales
Cercle de corrélation des variables.
- Période des vacances
Le premier plan factoriel renferme 65,3% de l’information totale et toutes les variables (stations) sont bien représentées dans ce plan sauf les stations numéro 1, 24 et 30. L’axe 2 est caractérisé par les numéros de stations 21 et 8 en haut et le numéro 5 en bas, ** L’axe 1 quant à lui est caractérisée par les autres stations comme les n°28, 2 et 10 par exemple.
- Période Hors vacances
Le premier plan factoriel renferme 75,8% de l’information totale et toutes les variables (stations) sont bien représentées dans ce plan sauf les stations numéro 24, 52 et 30. L’axe 2 est caractérisé par les numéros de stations 21, 8, 26, 2, 20 et 77 en haut et le numéro 1 en bas. L’axe 1 quant à lui est caractérisée par les autres stations comme les n°19, 10, 23 et 17 par exemple.
Classification Hiérachique
Dans cette partie, nous avons pour but d’attribuer à chaque heures moyennées par jours un groupe dont les individus ont des comportement similaires. Pour ce faire, nous allons utiliser la méthode de classification Hiérarchique sur Composantes Principales (HCPC). Cette classification utilise la méthode d’agrégation de Ward pour construire le dendrogramme. Elle cherche à minimiser l’inertie intra-classe et à maximiser l’inertie inter-classe afin d’obtenir les classes les plus homogènes possibles. La notion de ressemblance entre observations est évaluée par une distance entre individus. La matrice de distance entre individus est considérée comme la matrice d’hétérogénéité de tous les groupements initiaux possibles.De vplus, cette approche HCPC nous permet de combiner les trois méthodes standards utilisées dans les analyses de données multivariées :
- La méthode des composantes principales (ACP) faite dans la partie 2.
- La classification ascendante hiérarchique (CAH).
- Le partitionnement en k-moyennes.
Enfin, cette méthode réalise à la fois le calcul de la matrice des distances, du dendrogramme et le partitionnement de la population en classes.
Dendoramme à partir des résultats de L’ACP
Période des vacances
La méthode HCP nous propose une classification hiérarchique en 3 groupes à travers le dendrogramme ci-dessus.
Période hors vacances
La méthode HCP nous propose aussi une classification hiérarchique en 3 groupes.
Partition
Période des vacances
L’ ACP nous pouvons faire ressortir que l’axe 2 correspond aux stations n°21, 5, 18 c’est-à-dire au le cluster 2qui auront des nombres de comptages de vélos élevés dans ces stations. L’axe 1 correspond autres stations comme les n°28, 2 et 10 par exemple c’est-à-dire aux clusters 1 et 3 qui auront donc des nombres de comptage de vélos élevés dans ces stations pour le cluster 3 et faible pour le cluster 1.
Période hors vacances
L’ ACP nous pouvons faire ressortir que l’axe 2 correspond aux stations 21, 8, 26, 2, 20 et 77 c’est-à-dire au cluster 2qui auront des nombres de comptages de vélos élevés dans ces stations. L’axe 1 correspond autres stations comme les n°19, 10, 23 et 17 par exemple c’est-à-dire aux clusters 1 et 3 qui auront donc des nombres de comptages de vélos élevés dans ces stations pour le cluster 3 et faibles pour le cluster 1.
Prédiction
Dans cette partie, nous allons tenter de prédire le nombre de comptages de vélos par jours moyennés sur les heures pour la 24ème stations située au centre de Bordeaux pour les 30 prochains jours. Nous décidons d’utiliser le processus Auto_Régressif AR(p) ou ARIMA(p,d,0) où p est l’ordre associé à sa fonction d’autocorrection partielle (pACF) et d le nombre de différenciation nécessaire pour rendre la série stationnaire. Nous choisissons ce processus car nous voulons prédire en fonction des valeurs passées.
Test de stationarité de Kwiatkowski–Phillips–Schmidt–Shin (KPSS)
Le test de stationnarité de KPSS est un test qu’on utilise pour tester une hypothèse nulle qui stipule que la série temporelle est stationnaire. On rejettera donc cette hypothèse si la p-valeur associée est inférieure à une seuil de 5%. Ainsi lorsque la p-valeur est supérieure à ce seuil la série est stationnaire.
Période des vacances
##
## KPSS Test for Level Stationarity
##
## data: S24_yes
## KPSS Level = 0.31188, Truncation lag parameter = 4, p-value = 0.1
## [1] TRUE
D’après le test de KPSS, la série est stationnaire.
Période hors vacances
##
## KPSS Test for Level Stationarity
##
## data: S24_no
## KPSS Level = 0.26331, Truncation lag parameter = 5, p-value = 0.1
## [1] TRUE
D’après le test de KPSS, cette série est aussi stationnaire. Nous n’avons donc pas besoin de faire des transformations (différenciation etc..) sur ces séries. Nos modèles seront donc des AIMA(p,0,0) avec p que nous allons déterminer à l’aide des visualisations suivantes.
Visualisation de la série et sa fonction d’autocorrélation partielle.
Période des vacances
Ici, l’ordre à partie du quel toutes les autres rentre dans l’intervalle est 3 donc p=3. Ainsi le modèle associé est ARIMA(3,0,0).
Période hors vacances
Pour ce qui est de la période hors vacances, p=8 et on a donc un ARIMA(8,0,0).
Vérification de la normalité et de la non corrélation des résidus.
Dans cette partie, nous visualisons la normalité des résidus puis nous testons leur indépendance grâce au test de Box-Ljung dont l’hypothèse nulle stipule que les résidus sont indépendants.
Période des vacances
On voit dans ces visualisations que les résidus sont distribués selon une loi normale. De plus le test d’indépendance ci-dessous confirme la non corrélation de ces résidus.
##
## Box-Ljung test
##
## data: epsi_yes
## X-squared = 9.0691e-07, df = 1, p-value = 0.9992
Période hors vacances
##
## Box-Ljung test
##
## data: epsi_no
## X-squared = 0.00079249, df = 1, p-value = 0.9775
Le résultat est donc pareil pour la période hors vacances.
Visualisation des prédictions sur les 30 prochains jours
Nous remarquons ici que pendant la période des vacances le nombre de comptages moyen de vélos par jour dans la 24ème station va redescendre pour venir se stabiliser comme avant.
Pour ce qui est de la période hors vacances, elle reste continue.
Conclusion
Nous avons cherché à visualiser et à prédire le flux des vélos de type boucle en libre service dans 32 stations à travers le nombre de comptages par jour et par heure. Tout d’abord, cette étude nous montre un regroupement en 3 groupes des heures moyennées par jours que ce soit dans la période des vacances scolaires ou non. Ensuite nous avons obtenu des prédictions sur les 30 prochains jours qui nous semblent pertinentes vu la crise sanitaire et les travaux routiers en cours.