Projet Open Data : Flux de vélos de type boucle dans Bordeaux Métropole

Le vélo est l’un des moyens de déplacement les plus rapides, économiques et fiables surtout en milieu urbain. C’est pourquoi les autorités de la ville de Bordeaux orientent les gens vers ce moyen de transport et construisent de plus en plus des pistes cyclables. Dans ce projet, nous voulons étudier le flux des vélos en libre service dans 32 différentes stations de la ville de Bordeaux de 2021 à 2022. Pour cela nous disposons de deux jeux de données récupérés sur le site de l’ATELIER OPEN DATA Bordeaux métropole dont la dernière mise à jour remonte au 8 février 2022.

Le premier jeu de données: Capteur de trafic vélo - historique horaire va nous permettre de commencer par une cartographie afin de repérer les emplacements des stations grâce aux coordonnées géographiques (longitude et latitude).

Présentation des jeux de données

Jeu de donnée Capteur de trafic vélo

ABCDEFGHIJ0123456789
date
<dttm>
stations
<chr>
comptage_5m
<dbl>
2021-04-02 09:00:00Z601CT832
2021-04-02 19:00:00Z601CT89
2021-04-02 20:00:00Z601CT813
2021-04-02 21:00:00Z601CT81
2021-04-03 02:00:00Z601CT81
2021-04-03 06:00:00Z601CT823
2021-04-03 10:00:00Z601CT823
2021-04-03 11:00:00Z601CT819
2021-04-03 13:00:00Z601CT827
2021-04-03 17:00:00Z601CT814

Nous avons une première base de données comportant 303.872 lignes correspondant aux nombre d’heures entre le 8 Janvier 2021 à partir de 4h et le 7 Février 2022 à 22h. Les variables associées à ces lignes sont:

  • date indiquant la date et l’heure de comptage;
  • stations indiquant le numéro des stations;
  • comptage_5m indiquant le nombre de comptage de vélos dans chaque station;
  • latitude et longitude indiquant les coordonnées géographiques des stations,
  • libelle indiquant l’adresse des stations.
##       date                       stations          comptage_5m    
##  Min.   :2021-01-08 04:00:00   Length:303872      Min.   :  0.00  
##  1st Qu.:2021-04-17 01:45:00   Class :character   1st Qu.:  0.00  
##  Median :2021-07-24 22:30:00   Mode  :character   Median :  5.00  
##  Mean   :2021-07-24 23:47:18                      Mean   : 26.86  
##  3rd Qu.:2021-11-01 00:15:00                      3rd Qu.: 30.00  
##  Max.   :2022-02-07 22:00:00                      Max.   :727.00  
##                                                   NA's   :623     
##    libelle             latitude       longitude      
##  Length:303872      Min.   :44.79   Min.   :-0.6635  
##  Class :character   1st Qu.:44.83   1st Qu.:-0.5990  
##  Mode  :character   Median :44.84   Median :-0.5814  
##                     Mean   :44.84   Mean   :-0.5770  
##                     3rd Qu.:44.85   3rd Qu.:-0.5532  
##                     Max.   :44.89   Max.   :-0.5122  
##                     NA's   :32      NA's   :32

Les statistiques ci-dessus nous indiquent que le nombre de comptage de vélos maximal dans ce jeu de données est 727 et le nombre minimal vaut 0.De plus, nous avons 32 coordonnées géographiques manquantes et 623 valeurs manquantes dans la variable comptage de vélos dû à des stations inconnues. Nous supprimons donc de notre jeu de données les lignes dont les coordonnées géographiques comportent des valeurs manquantes.

##       date                       stations          comptage_5m    
##  Min.   :2021-01-08 04:00:00   Length:303218      Min.   :  0.00  
##  1st Qu.:2021-04-16 20:00:00   Class :character   1st Qu.:  0.00  
##  Median :2021-07-25 09:00:00   Mode  :character   Median :  5.00  
##  Mean   :2021-07-25 03:43:25                      Mean   : 26.86  
##  3rd Qu.:2021-11-01 06:00:00                      3rd Qu.: 30.00  
##  Max.   :2022-02-07 22:00:00                      Max.   :727.00  
##    libelle             latitude       longitude      
##  Length:303218      Min.   :44.79   Min.   :-0.6635  
##  Class :character   1st Qu.:44.83   1st Qu.:-0.5988  
##  Mode  :character   Median :44.84   Median :-0.5793  
##                     Mean   :44.84   Mean   :-0.5769  
##                     3rd Qu.:44.85   3rd Qu.:-0.5448  
##                     Max.   :44.89   Max.   :-0.5123

Nous n’avons plus de valeurs manquantes dans la base. Nous pouvons maintenant repérer la position des stations à travers la cartographie suivante:

Visualisation des stations de vélos sur la carte de la ville de Bordeaux.

Nous avons au total 32 différentes stations de vélo en libre services dans la ville de bordeaux. On peut observer des proximités entre les stations. Certaines sont tellement proches qu’on arrive pas à les distinguer sans faire un zoom, c’est le cas des deux stations situées au Pont de pierre vers Stalingrad (Z203CT7) et au Pont de pierre vers Bir Hakeim (Z203CT6); des deux autres stations situées au 37 cours du Marechal Juin vers Boulevards (Z201CT5) et au 37 cours du Marechal Juin vers Pay Berland (Z201CT4). On peut donc supposer des comportements similaires dans chacune des deux stations. Par ailleurs, la majorité des stations sont regroupées par paire sauf celles autour du carrefour Barrière Saint Augustin situées à l’intersection de la rue du Général de Laminat et celle du Boulevard Antoine Gauthier.

Par la suite, nous créons une matrice X de taille n×p avec n (nombre d’heures entre le 8 Janvier 2021 à partir de 4h et le 7 Février 2022 à 22h) dont chaque entrée Xij est le nombre de comtage de vélos issue des observations par heures i et pour la station j. Nous faisons cela pour voir le lien entre les stations.

length(dates$Heures)
## [1] 9495

On peut remarquer ici qu’entre le 8 Janvier 2021 à partir de 4h et le 7 Février 2022 à 22h on à n=9495 comptages par heure.

Jeu de données calendier des vacances scolaires.

ABCDEFGHIJ0123456789
Date
<date>
Calendrier Zone A
<chr>
Calendrier Zone B
<chr>
2017-07-08Vacances d'étéVacances d'été
2017-08-10Vacances d'étéVacances d'été
2017-08-19Vacances d'étéVacances d'été
2017-08-27Vacances d'étéVacances d'été
2017-09-07Hors VacancesHors Vacances
2017-09-11Hors VacancesHors Vacances
2017-10-18Hors VacancesHors Vacances
2017-11-07Hors VacancesHors Vacances
2017-11-14Hors VacancesHors Vacances
2017-12-15Hors VacancesHors Vacances

Dans cette base de données, nous avons par zone le calendrier des vacances scolaires de 2017 à 2022. La ville de Bordeaux étant classé dans la zone A, nous allons récupérer le calendrier de la zone A du 8 Janvier 2021 au 7 Février 2022. Pour la suite du travail, nous avons décider de recoder cette variable en variable qualitative binaire (Yes pour toutes les catégories de vacances et No pour hors vacances). Nous faisons la jointure entre ces données et le premier jeu de données et nous avons notre base ci-dessous

Jeu de données final

ABCDEFGHIJ0123456789
Heures
<dbl>
Z203CT7
<dbl>
Z201CT4
<dbl>
Z201CT5
<dbl>
Z901CT6
<dbl>
Z401CT9
<dbl>
Z601CT7
<dbl>
Z401CT12
<dbl>
Z502CT24
<dbl>
190453410
2351717417473
313350533962243119
4332112131781715512026
526195955013828835
61296147258017433
713159382076395211
8208977630104697316
9190859060107649017
10157837543106418611

Analyse descriptive

Analyse univariée

janv. 2021avr. 2021juil. 2021oct. 2021janv. 2022050100150200
Boulevard Antoine Gauthier vers rue BerruerDateNombre de passage de vélos

Le nombre de comptages de vélos dans cette station varie en moyenne entre 0 et 100 par heure.

janv. 2021avr. 2021juil. 2021oct. 2021janv. 2022050100150
2 Avenue de la république vers rue de la libertéDateNombre de passage de vélos

Par contre le nombre de comptages de vélo dans cette station par heure varie entre 0 et 150 au début et revient à 0 jusqu’à ce jour. On peut en déduire que cette station est fermée et qu’elle n’apportera pas d’information dans la suite, nous la retirons du jeu de données.

Analyse bivariée

Matrice de correlation de Pearson entre les variables quantitatives

On peut noter que seule la station Z24CT23 n’est liée à aucune autre station, toutes les autres stations sont fortement liées entres elles. Ce résultat nous pousse à penser aux méthodes de réductions de dimensions.

Visualisation des flux de vélos dans quelques stations en fonction des vacances

janv. 2021avr. 2021juil. 2021oct. 2021janv. 20220100200300
VacancesNoYesFlux de vélos en fonction des vacancesDateNombre de comptages_30ème station

On visualise ici le nombre de comptages de vélos par jour colorié en fonction de la variable “vacances” au niveau de la station Z24CT23 située sur l’Avenue de Magudas sens entrant vers Le Haillan. On remarque que de janvier 2021 à décembre 2021, on a plutôt peu de mouvements sur cette station et ça remonte considérablement à partir de janvier 2022. C’est ce qui nous a poussées à vouloir voir ce qui se passe dans la station située sur la même avenue mais sens sortant.

janv. 2021avr. 2021juil. 2021oct. 2021janv. 20220255075
VacancesNoYesFlux de vélos en fonction des vacancesDateNombre de comptages_20ème

On voit donc sur ce graphique le nombre de comptages de vélos par jour colorié en fonction de la variable “vacances” au niveau de la station Z24CT24 située sur l’Avenue de Magudas sens sortant vers Le Haillan. On remarque exactement l’opposé de ce qui se passe dans l’autre station. Les deux stations semblent être complémentaires.

janv. 2021avr. 2021juil. 2021oct. 2021janv. 2022051015
VacancesNoYesFlux de vélos en fonction des vacancesDateNombre de comptage_24ème station

C’est le graphe qui représente le nombre de comptages de vélos par jour au niveau de la 24ème station. Pour faire notre prédiction, nous avons choisi cette station qui est plutôt bien située dans la ville de Bordeaux

Analyse exploratoire

Dans toute la suite, nous faisons les analyses sur deux jeux de données distingués par les vacances scolaires. Ainsi, le premier jeu de données contient l’ensemble du jeu de données précédent filtré sur Vacances = Yes et le deuxième jeu de données sera donc filtré sur Vacances = No.De plus pour des raisons de puissance de calcul, nous créons pour chaque jeu de données une nouvelle matrice X de taille n×p avec n le nombre de jours compté dans chaque jeu de données dans laquelle chaque entrée Xij est le nombre de comptage de vélos issue des observations moyennées par jours i sur les heures, pour la station j.

Analyse en composantes principales

Cercle de corrélation des variables.

  • Période des vacances

Le premier plan factoriel renferme 65,3% de l’information totale et toutes les variables (stations) sont bien représentées dans ce plan sauf les stations numéro 1, 24 et 30. L’axe 2 est caractérisé par les numéros de stations 21 et 8 en haut et le numéro 5 en bas, ** L’axe 1 quant à lui est caractérisée par les autres stations comme les n°28, 2 et 10 par exemple.

  • Période Hors vacances

Le premier plan factoriel renferme 75,8% de l’information totale et toutes les variables (stations) sont bien représentées dans ce plan sauf les stations numéro 24, 52 et 30. L’axe 2 est caractérisé par les numéros de stations 21, 8, 26, 2, 20 et 77 en haut et le numéro 1 en bas. L’axe 1 quant à lui est caractérisée par les autres stations comme les n°19, 10, 23 et 17 par exemple.

Classification Hiérachique

Dans cette partie, nous avons pour but d’attribuer à chaque heures moyennées par jours un groupe dont les individus ont des comportement similaires. Pour ce faire, nous allons utiliser la méthode de classification Hiérarchique sur Composantes Principales (HCPC). Cette classification utilise la méthode d’agrégation de Ward pour construire le dendrogramme. Elle cherche à minimiser l’inertie intra-classe et à maximiser l’inertie inter-classe afin d’obtenir les classes les plus homogènes possibles. La notion de ressemblance entre observations est évaluée par une distance entre individus. La matrice de distance entre individus est considérée comme la matrice d’hétérogénéité de tous les groupements initiaux possibles.De vplus, cette approche HCPC nous permet de combiner les trois méthodes standards utilisées dans les analyses de données multivariées :

  • La méthode des composantes principales (ACP) faite dans la partie 2.
  • La classification ascendante hiérarchique (CAH).
  • Le partitionnement en k-moyennes.

Enfin, cette méthode réalise à la fois le calcul de la matrice des distances, du dendrogramme et le partitionnement de la population en classes.

Dendoramme à partir des résultats de L’ACP

Période des vacances

La méthode HCP nous propose une classification hiérarchique en 3 groupes à travers le dendrogramme ci-dessus.

Période hors vacances

La méthode HCP nous propose aussi une classification hiérarchique en 3 groupes.

Partition

Période des vacances

L’ ACP nous pouvons faire ressortir que l’axe 2 correspond aux stations n°21, 5, 18 c’est-à-dire au le cluster 2qui auront des nombres de comptages de vélos élevés dans ces stations. L’axe 1 correspond autres stations comme les n°28, 2 et 10 par exemple c’est-à-dire aux clusters 1 et 3 qui auront donc des nombres de comptage de vélos élevés dans ces stations pour le cluster 3 et faible pour le cluster 1.

Période hors vacances

L’ ACP nous pouvons faire ressortir que l’axe 2 correspond aux stations 21, 8, 26, 2, 20 et 77 c’est-à-dire au cluster 2qui auront des nombres de comptages de vélos élevés dans ces stations. L’axe 1 correspond autres stations comme les n°19, 10, 23 et 17 par exemple c’est-à-dire aux clusters 1 et 3 qui auront donc des nombres de comptages de vélos élevés dans ces stations pour le cluster 3 et faibles pour le cluster 1.

Prédiction

Dans cette partie, nous allons tenter de prédire le nombre de comptages de vélos par jours moyennés sur les heures pour la 24ème stations située au centre de Bordeaux pour les 30 prochains jours. Nous décidons d’utiliser le processus Auto_Régressif AR(p) ou ARIMA(p,d,0) où p est l’ordre associé à sa fonction d’autocorrection partielle (pACF) et d le nombre de différenciation nécessaire pour rendre la série stationnaire. Nous choisissons ce processus car nous voulons prédire en fonction des valeurs passées.

Test de stationarité de Kwiatkowski–Phillips–Schmidt–Shin (KPSS)

Le test de stationnarité de KPSS est un test qu’on utilise pour tester une hypothèse nulle qui stipule que la série temporelle est stationnaire. On rejettera donc cette hypothèse si la p-valeur associée est inférieure à une seuil de 5%. Ainsi lorsque la p-valeur est supérieure à ce seuil la série est stationnaire.

Période des vacances

## 
##  KPSS Test for Level Stationarity
## 
## data:  S24_yes
## KPSS Level = 0.31188, Truncation lag parameter = 4, p-value = 0.1
## [1] TRUE

D’après le test de KPSS, la série est stationnaire.

Période hors vacances

## 
##  KPSS Test for Level Stationarity
## 
## data:  S24_no
## KPSS Level = 0.26331, Truncation lag parameter = 5, p-value = 0.1
## [1] TRUE

D’après le test de KPSS, cette série est aussi stationnaire. Nous n’avons donc pas besoin de faire des transformations (différenciation etc..) sur ces séries. Nos modèles seront donc des AIMA(p,0,0) avec p que nous allons déterminer à l’aide des visualisations suivantes.

Visualisation de la série et sa fonction d’autocorrélation partielle.

Période des vacances

Ici, l’ordre à partie du quel toutes les autres rentre dans l’intervalle est 3 donc p=3. Ainsi le modèle associé est ARIMA(3,0,0).

Période hors vacances

Pour ce qui est de la période hors vacances, p=8 et on a donc un ARIMA(8,0,0).

Vérification de la normalité et de la non corrélation des résidus.

Dans cette partie, nous visualisons la normalité des résidus puis nous testons leur indépendance grâce au test de Box-Ljung dont l’hypothèse nulle stipule que les résidus sont indépendants.

Période des vacances

On voit dans ces visualisations que les résidus sont distribués selon une loi normale. De plus le test d’indépendance ci-dessous confirme la non corrélation de ces résidus.

## 
##  Box-Ljung test
## 
## data:  epsi_yes
## X-squared = 9.0691e-07, df = 1, p-value = 0.9992

Période hors vacances

## 
##  Box-Ljung test
## 
## data:  epsi_no
## X-squared = 0.00079249, df = 1, p-value = 0.9775

Le résultat est donc pareil pour la période hors vacances.

Visualisation des prédictions sur les 30 prochains jours

Nous remarquons ici que pendant la période des vacances le nombre de comptages moyen de vélos par jour dans la 24ème station va redescendre pour venir se stabiliser comme avant.

Pour ce qui est de la période hors vacances, elle reste continue.

Conclusion

Nous avons cherché à visualiser et à prédire le flux des vélos de type boucle en libre service dans 32 stations à travers le nombre de comptages par jour et par heure. Tout d’abord, cette étude nous montre un regroupement en 3 groupes des heures moyennées par jours que ce soit dans la période des vacances scolaires ou non. Ensuite nous avons obtenu des prédictions sur les 30 prochains jours qui nous semblent pertinentes vu la crise sanitaire et les travaux routiers en cours.