Introduction:

Plus de 350 000 personnes habitent en France et travaillent à l’étranger, principalement en Suisse et au Luxembourg, attirés par des rémunérations bien plus élevées que dans l’hexagone. Ce sont ceux que l’on appelle les frontaliers, qui possèdent généralement un statut fiscal particulier.

Il y a aussi tous les autres,les non salariés,ceux qui sont amenés à travailler ponctuellement à l’étranger. Et ceux-là n’habitent pas forcément près des frontières.

Plusieurs salariés français se déplacent sur la journée en train ou en avion, pour un premier rendez-vous ou pour une mission, le travail peut être fait aussi à distance. C’est le cas de plusieurs activités de prestation intellectuelle comme la traduction, la rédaction, le dessin et la programmation.

Cela revient à parler du «trajet domicile - travail », le terme « domicile » couvre la notion de résidence habituelle, soit le lieu où le salarié réside pendant les jours travaillés. Si par exemple, le salarié a une double résidence (comme souvent, la semaine à Paris pour travailler, et le week-end en province où il retrouve sa famille qui y réside) il doit être considéré, au regard de la législation, comme ayant sa résidence habituelle à Paris.

Les déplacements «domicile-travail» sont aussi appelés «migrations alternantes» ou «navettes». D’après le dictionnaire : - Effectuer un déplacement c’est se rendre d’un lieu à un autre ; - Faire la navette, c’est effectuer régulièrement l’aller-retour entre deux lieux déterminés ; - Les migrations alternantes sont des déplacements entre le lieu d’habitation et le lieu de travail.

A partir des données disponibles sur le site de l’insee, https://www.insee.fr/, nous allons nous intéressé à la mobilité professionnelle en 2010, c’est-à-dire les déplacements entre le domicile et le lieu de travail en france. Dans un premier temps nous allons faire une études statistique afin d’entirer des informations sur les zones géographique qui offrent plus de travail que d’autre ……

1- Problématique:

Dans ce projet on veut :

2- Importation des données:

On importe les données sous R via cette ligne de code. On dispose de deux base de données.

#supprimer les warning
options(warn=-1)
data<- read.csv2("C:/Users/toshiba/Desktop/Open_Data/projet_final/base-flux-mobilite-domicile-lieu-travail-2010.txt", header=TRUE)
library(knitr)
kable(data[1:5,])
CODGEO LIBGEO DCLT L_DCLT NBFLUX_C10_ACTOCC15P
01001 L’Abergement-Clémenciat 01001 L’Abergement-Clémenciat 76.389744
01001 L’Abergement-Clémenciat 01053 Bourg-en-Bresse 56.287179
01001 L’Abergement-Clémenciat 01093 Châtillon-sur-Chalaronne 64.328205
01001 L’Abergement-Clémenciat 01159 Feillens 4.020513
01001 L’Abergement-Clémenciat 01165 Francheleins 4.020513

La deuxième base de données,

mobilite_prof<- read.csv('C:/Users/toshiba/Desktop/Open_Data/projet_final/mobilite_professionelle1.csv',header = TRUE,sep = ";",stringsAsFactors=F)

kable(mobilite_prof[1:5,])
CODGEO LIBGEO C10_ACTOCC15P_ILT1 C10_ACTOCC15P_ILTAUT C10_ACTOCC15P
01001 L’Abergement-Clémenciat 76 265 342
01002 L’Abergement-de-Varey 4 94 98
01004 Ambérieu-en-Bugey 2579 3287 5866
01005 Ambérieux-en-Dombes 140 640 780
01006 Ambléon 0 46 46

3- Description des données:

On dispose de deux base de données, data et mobilité professionnelle. notez bien que La base sur les flux de mobilité des « déplacements domicile-travail » est fournit, pour l’ensemble des communes (France métropolitaine et DOM), les effectifs correspondant aux croisements du lieu de résidence avec le lieu de travail.

names(data)
## [1] "CODGEO"               "LIBGEO"               "DCLT"                
## [4] "L_DCLT"               "NBFLUX_C10_ACTOCC15P"
names(mobilite_prof)
## [1] "CODGEO"               "LIBGEO"               "C10_ACTOCC15P_ILT1"  
## [4] "C10_ACTOCC15P_ILTAUT" "C10_ACTOCC15P"

La premiere base de donnée DTR qui représente les mobilités professionnelles (déplacements domicile - lieu de travail),contient et 36666 zones géographiques et 5 variables quantitatives et quantitatives. les variables sont:

La seconde base de deonnée contient 10021610 zones géographiques et 5 variables, les variables sont:

Dans la troisième base de données on a les variables suivantes:

4-Statistiques descriptives:

summary(mobilite_prof)
##     CODGEO             LIBGEO          C10_ACTOCC15P_ILT1
##  Length:36666       Length:36666       Min.   :     0.0  
##  Class :character   Class :character   1st Qu.:    16.0  
##  Mode  :character   Mode  :character   Median :    40.0  
##                                        Mean   :   254.2  
##                                        3rd Qu.:   102.0  
##                                        Max.   :143245.0  
##  C10_ACTOCC15P_ILTAUT C10_ACTOCC15P     
##  Min.   :    0.0      Min.   :     1.0  
##  1st Qu.:   60.0      1st Qu.:    81.0  
##  Median :  141.0      Median :   186.0  
##  Mean   :  473.6      Mean   :   727.8  
##  3rd Qu.:  348.0      3rd Qu.:   459.0  
##  Max.   :67791.0      Max.   :193152.0
mobilite_prof$LIBGEO[which.max(mobilite_prof$C10_ACTOCC15P_ILT1)]
## [1] "Toulouse"
mobilite_prof$LIBGEO[which.min(mobilite_prof$C10_ACTOCC15P_ILT1)]
## [1] "Ambléon"
mobilite_prof$LIBGEO[which.max(mobilite_prof$C10_ACTOCC15P_ILTAUT)]
## [1] "Paris 15e Arrondissement"
mobilite_prof$LIBGEO[which.min(mobilite_prof$C10_ACTOCC15P_ILTAUT)]
## [1] "Saint-Éloy-d'Allier"

La fonction summary(mobilite_prof) permet de visualiser des statistiques de base pour chaque variable :

Pour les variables quantitatives : Minimum, maximum, moyenne, médiane, 1er quartile, 3ème quartile.

Pour les variables qualitatives : Nombre d’observations par classe.

D’après les données de la table mobilité professionnelle, on a au minimum 0 actifs travaillant dans leur commune de résidence et au maximum on a 143245 actifs qui travaillent dans leurs communes de résidence.Cette valeur corréspond a toulousains et toulousaines donc il ya 143245 qui travaillent dans la même commune de résidence.

On a 67791 actifs à paris au 15 arrondissement qui ne travaillent pas dans leur communes de résidence. Et en moyenne il ya plus d’actifs qui travaillent en dehors de leur commune de résidence que ceux qui travaillent dans la même commune de résidence.

4-1- Représentation graphique :

On va représenter le nombre d’actifs travaillant dans leur commune (ou arrondissement municipal) de résidence et on va représenter egalement le nombre d’actifs travaillant hors de leur commune (ou arrondissement municipal) de résidence.

#Barplot
barplot(mobilite_prof$C10_ACTOCC15P_ILT1, main="Répartition selon les zones des actifs travaillant dans leur commune de résidence", xlab="zone geographique",ylab="Les fréquences",col="red")

#Barplot
barplot(mobilite_prof$C10_ACTOCC15P_ILTAUT, main="Répartition selon les zones des actifs travaillant hors de leur commune de résidence", xlab="zone geographique",ylab="Les fréquences",col="red")

La cartographie

library('rgdal')      # Lire et reprojeter les cartes
## Loading required package: sp
## rgdal: version: 1.1-8, (SVN revision 616)
##  Geospatial Data Abstraction Library extensions to R successfully loaded
##  Loaded GDAL runtime: GDAL 2.0.1, released 2015/09/15
##  Path to GDAL shared files: E:/R-3.1.2/library/rgdal/gdal
##  GDAL does not use iconv for recoding strings.
##  Loaded PROJ.4 runtime: Rel. 4.9.1, 04 March 2015, [PJ_VERSION: 491]
##  Path to PROJ.4 shared files: E:/R-3.1.2/library/rgdal/proj
##  Linking to sp version: 1.2-3
library('plotrix')    # Créer des échelles de couleurs
library('classInt') 


#library("rgdal")
#regions<-readOGR(dsn="C:/Users/toshiba/Desktop/Open_Data/projet_final/regions_francaise_opendata", layer="regions-20140306-50m", verbose=TRUE)
#plot(regions)


#departement<-readOGR(dsn="C:/Users/toshiba/Desktop/Open_Data/projet_final/cle",layer="n_com_fla_000")
#plot(departement, col = "blue", border = "black", axes = TRUE)


#matche<-match.map(departement,mobilite_prof$LIBGEO,exact=TRUE)

On importe les données de la troisième base de donnée

#donnees deplacement 2015 en fonction de l'age le sexe et lieu du travail

BD1<-read.csv(file = 'C:/Users/toshiba/Desktop/Open_Data/projet_final/donnee_age_sexe_ltr.csv',sep = ";", header = TRUE, stringsAsFactors = FALSE)

plot(BD1$AGEQ65015_ILTR1_SEXE1, BD1$AGEQ65015_ILTR1_SEXE2, col=c(1,2))

barplot(BD1$AGEQ65015_ILTR1_SEXE1)

#counts<-table(BD1$AGEQ65015_ILTR1_SEXE1)#,BD1$AGEQ65015_ILTR1_SEXE2)
#counts
#barplot(counts,main="distribution selon le sex", col=c("blue", "red"),legend=rownames(counts))

#barplot(BD1$AGEQ65065_ILTR5_SEXE1,BD1$AGEQ65065_ILTR5_SEXE2, col=c(2,3))

#barplot(BD1$AGEQ65015_ILTR1_SEXE2, xlab=BD1$LIBGEO, col="red")
tableau<-matrix(c(BD1$AGEQ65015_ILTR1_SEXE1,BD1$AGEQ65015_ILTR1_SEXE2), ncol=2,byrow=T)

barplot(t(tableau), col=topo.colors(2),main="Distribution des actifs ayant un age=[15,19] 
        et travaillant dans leur commune de résidence",xlab="Zones géographiques", ylab="Effectifs")
legend("topleft",legend=c("Homme","Femme"),col=c(2,3),fil=topo.colors(2),cex=0.8)

Examinons la base de données BD1 qui donne la distribution de la population active de 15 ans ou plus ayant un emploi par sex et lieu de travail pour les differents arrondissements Marseille, Lyon et Paris. En constate que les individus de différent sex se répartissent différemment dans l’espace entre les zones de résidences. Mais ces differences sont-elles significatives?

Test de khi deux :

L’hypothèse à tester est que les distributions sont identiques et que les différences observées sont dûs au hasard.

On choisit les colonnes suivantes:AGEQ65015_ILTR1_SEXE1 et AGEQ65015_ILTR1_SEXE2, c’est à dire les actifs qui ont un age entre 15 à 19 et qui travaillent dans le même lieu de résidence en faisant varié le SEX.

Pour voir si les conditions d’application du test sont réunis: est-ce que chaque case du tableau a un effectif supérieur ou égal à 5 et est-ce que les effectifs totaux du tableau sont supérieurs à 60 ?

#les conditions d'applications des tests
min(BD1$AGEQ65015_ILTR1_SEXE1)
## [1] 13
min(BD1$AGEQ65015_ILTR1_SEXE2)
## [1] 16

Oui, c’est le cas, le test de khi deux de contingence a du sens pour tester le lien statistique entre les lignes et les colonnes du tableau nous pouvons continuer.

Nous posons donc l’hypothèse d’indépendance : il n’y a pas de différence significative entre ces deux variables c’est_à_dire entre les hommes et les femmes. Voyons si cette hypothèse est acceptable ou non.

#Test de khi deux
tableau<-matrix(c(BD1$AGEQ65015_ILTR1_SEXE1,BD1$AGEQ65015_ILTR1_SEXE2), ncol=2,byrow=T)

#rownames(tableau)<-c(BD1$LIBGEO)
colnames(tableau)<-c("AGEQ65015_ILTR1_SEXE1","AGEQ65015_ILTR1_SEXE1")
tableau
##       AGEQ65015_ILTR1_SEXE1 AGEQ65015_ILTR1_SEXE1
##  [1,]                    79                    34
##  [2,]                    99                    99
##  [3,]                   119                   100
##  [4,]                    49                   130
##  [5,]                   150                   169
##  [6,]                   189                   162
##  [7,]                   200                    98
##  [8,]                   140                    25
##  [9,]                    34                    46
## [10,]                   169                    61
## [11,]                    75                    61
## [12,]                   144                   172
## [13,]                    97                    23
## [14,]                    14                    26
## [15,]                    28                   110
## [16,]                    13                    67
## [17,]                    88                    57
## [18,]                   129                   132
## [19,]                   159                   220
## [20,]                   151                   276
## [21,]                   154                   218
## [22,]                   307                   273
## [23,]                   332                    56
## [24,]                    46                    63
## [25,]                    67                   156
## [26,]                   102                    39
## [27,]                   103                   137
## [28,]                   123                   125
## [29,]                    71                   139
## [30,]                    97                   112
## [31,]                    30                    77
## [32,]                    77                   208
## [33,]                    50                    88
## [34,]                    65                   237
## [35,]                   232                   134
## [36,]                    16                    35
## [37,]                    41                    71
## [38,]                    76                    47
## [39,]                    70                    65
## [40,]                    81                   114
## [41,]                   149                   202
## [42,]                   333                   156
## [43,]                   287                   139
## [44,]                   255                   301
## [45,]                   306                   273
khi2<-chisq.test(tableau)
khi2
## 
##  Pearson's Chi-squared test
## 
## data:  tableau
## X-squared = 1094.091, df = 44, p-value < 2.2e-16

On a les résultats suivants:

En général on accepte l’hypothèse d’indépendance lorsque p-value est supérieure à 5 % (0,05). Dans notre cas la p_value est inférieur à 0.05 donc on rejette l’hypothèse nulle.

On constate alors que la distribution des femmes a une différence significative à celle des hommes.