Plus de 350 000 personnes habitent en France et travaillent à l’étranger, principalement en Suisse et au Luxembourg, attirés par des rémunérations bien plus élevées que dans l’hexagone. Ce sont ceux que l’on appelle les frontaliers, qui possèdent généralement un statut fiscal particulier.
Il y a aussi tous les autres,les non salariés,ceux qui sont amenés à travailler ponctuellement à l’étranger. Et ceux-là n’habitent pas forcément près des frontières.
Plusieurs salariés français se déplacent sur la journée en train ou en avion, pour un premier rendez-vous ou pour une mission, le travail peut être fait aussi à distance. C’est le cas de plusieurs activités de prestation intellectuelle comme la traduction, la rédaction, le dessin et la programmation.
Cela revient à parler du «trajet domicile - travail », le terme « domicile » couvre la notion de résidence habituelle, soit le lieu où le salarié réside pendant les jours travaillés. Si par exemple, le salarié a une double résidence (comme souvent, la semaine à Paris pour travailler, et le week-end en province où il retrouve sa famille qui y réside) il doit être considéré, au regard de la législation, comme ayant sa résidence habituelle à Paris.
Les déplacements «domicile-travail» sont aussi appelés «migrations alternantes» ou «navettes». D’après le dictionnaire : - Effectuer un déplacement c’est se rendre d’un lieu à un autre ; - Faire la navette, c’est effectuer régulièrement l’aller-retour entre deux lieux déterminés ; - Les migrations alternantes sont des déplacements entre le lieu d’habitation et le lieu de travail.
A partir des données disponibles sur le site de l’insee, https://www.insee.fr/, nous allons nous intéressé à la mobilité professionnelle en 2010, c’est-à-dire les déplacements entre le domicile et le lieu de travail en france. Dans un premier temps nous allons faire une études statistique afin d’entirer des informations sur les zones géographique qui offrent plus de travail que d’autre ……
Dans ce projet on veut :
On veut détecter les zones géographique qui offrent plus de postes d’emplois que d’autres zones, on comaprons les flux entrant et sortant.
Quelles sont les zones géographique qui offres plus de travail ?
y’a t’il des relations entre le le lieu de travail, le sexe et l’age ?
On importe les données sous R via cette ligne de code. On dispose de deux base de données.
#supprimer les warning
options(warn=-1)
data<- read.csv2("C:/Users/toshiba/Desktop/Open_Data/projet_final/base-flux-mobilite-domicile-lieu-travail-2010.txt", header=TRUE)
library(knitr)
kable(data[1:5,])
CODGEO | LIBGEO | DCLT | L_DCLT | NBFLUX_C10_ACTOCC15P |
---|---|---|---|---|
01001 | L’Abergement-Clémenciat | 01001 | L’Abergement-Clémenciat | 76.389744 |
01001 | L’Abergement-Clémenciat | 01053 | Bourg-en-Bresse | 56.287179 |
01001 | L’Abergement-Clémenciat | 01093 | Châtillon-sur-Chalaronne | 64.328205 |
01001 | L’Abergement-Clémenciat | 01159 | Feillens | 4.020513 |
01001 | L’Abergement-Clémenciat | 01165 | Francheleins | 4.020513 |
La deuxième base de données,
mobilite_prof<- read.csv('C:/Users/toshiba/Desktop/Open_Data/projet_final/mobilite_professionelle1.csv',header = TRUE,sep = ";",stringsAsFactors=F)
kable(mobilite_prof[1:5,])
CODGEO | LIBGEO | C10_ACTOCC15P_ILT1 | C10_ACTOCC15P_ILTAUT | C10_ACTOCC15P |
---|---|---|---|---|
01001 | L’Abergement-Clémenciat | 76 | 265 | 342 |
01002 | L’Abergement-de-Varey | 4 | 94 | 98 |
01004 | Ambérieu-en-Bugey | 2579 | 3287 | 5866 |
01005 | Ambérieux-en-Dombes | 140 | 640 | 780 |
01006 | Ambléon | 0 | 46 | 46 |
On dispose de deux base de données, data et mobilité professionnelle. notez bien que La base sur les flux de mobilité des « déplacements domicile-travail » est fournit, pour l’ensemble des communes (France métropolitaine et DOM), les effectifs correspondant aux croisements du lieu de résidence avec le lieu de travail.
names(data)
## [1] "CODGEO" "LIBGEO" "DCLT"
## [4] "L_DCLT" "NBFLUX_C10_ACTOCC15P"
names(mobilite_prof)
## [1] "CODGEO" "LIBGEO" "C10_ACTOCC15P_ILT1"
## [4] "C10_ACTOCC15P_ILTAUT" "C10_ACTOCC15P"
La premiere base de donnée DTR qui représente les mobilités professionnelles (déplacements domicile - lieu de travail),contient et 36666 zones géographiques et 5 variables quantitatives et quantitatives. les variables sont:
C10_ACTOCC15P_ILT1 : Nombre d’actifs travaillant dans leur commune (ou arrondissement municipal) de résidence.
C10_ACTOCC15P_ILTAUT : Nombre d’actifs travaillant hors de leur commune (ou arrondissement municipal) de résidence.
C10_ACTOCC15P : Total : nombre d’actifs de 15 ans ou plus ayant un emploi
CODGEO : Code géographique de la commune (ou de l’arrondissement municipal) de résidence
LIBGEO : commune (ou arrondissement municipal) de résidence
La seconde base de deonnée contient 10021610 zones géographiques et 5 variables, les variables sont:
DCLT : code géographique de la commune (ou de l’arrondissement municipal) du lieu de travail,
L_DCLT : commune (ou arrondissement municipal) du lieu de travail,
NBFLUX_C10_ACTOCC15P : actifs de 15 ans ou plus ayant un emploi, et CODGEO, LIBGEO.
Dans la troisième base de données on a les variables suivantes:
SEXE : sexe 1 : hommes 2 : femmes
ILTR : lieu de travail 1 : commune de résidence 2 : autre commune du département de résidence 3 : autre département de la région de résidence 4 : autre région en France métropolitaine 5 : autre (Dom, Com, étranger)
AGEQ65 : âge quinquennal 015 : 15 à 19 ans 020 : 20 à 24 ans 025 : 25 à 29 ans 030 : 30 à 34 ans 035 : 35 à 39 ans 040 : 40 à 44 ans 045 : 45 à 49 ans 050 : 50 à 54 ans 055 : 55 à 59 ans 060 : 60 à 64 ans 065 : 65 ans ou plus
summary(mobilite_prof)
## CODGEO LIBGEO C10_ACTOCC15P_ILT1
## Length:36666 Length:36666 Min. : 0.0
## Class :character Class :character 1st Qu.: 16.0
## Mode :character Mode :character Median : 40.0
## Mean : 254.2
## 3rd Qu.: 102.0
## Max. :143245.0
## C10_ACTOCC15P_ILTAUT C10_ACTOCC15P
## Min. : 0.0 Min. : 1.0
## 1st Qu.: 60.0 1st Qu.: 81.0
## Median : 141.0 Median : 186.0
## Mean : 473.6 Mean : 727.8
## 3rd Qu.: 348.0 3rd Qu.: 459.0
## Max. :67791.0 Max. :193152.0
mobilite_prof$LIBGEO[which.max(mobilite_prof$C10_ACTOCC15P_ILT1)]
## [1] "Toulouse"
mobilite_prof$LIBGEO[which.min(mobilite_prof$C10_ACTOCC15P_ILT1)]
## [1] "Ambléon"
mobilite_prof$LIBGEO[which.max(mobilite_prof$C10_ACTOCC15P_ILTAUT)]
## [1] "Paris 15e Arrondissement"
mobilite_prof$LIBGEO[which.min(mobilite_prof$C10_ACTOCC15P_ILTAUT)]
## [1] "Saint-Éloy-d'Allier"
La fonction summary(mobilite_prof) permet de visualiser des statistiques de base pour chaque variable :
Pour les variables quantitatives : Minimum, maximum, moyenne, médiane, 1er quartile, 3ème quartile.
Pour les variables qualitatives : Nombre d’observations par classe.
D’après les données de la table mobilité professionnelle, on a au minimum 0 actifs travaillant dans leur commune de résidence et au maximum on a 143245 actifs qui travaillent dans leurs communes de résidence.Cette valeur corréspond a toulousains et toulousaines donc il ya 143245 qui travaillent dans la même commune de résidence.
On a 67791 actifs à paris au 15 arrondissement qui ne travaillent pas dans leur communes de résidence. Et en moyenne il ya plus d’actifs qui travaillent en dehors de leur commune de résidence que ceux qui travaillent dans la même commune de résidence.
On va représenter le nombre d’actifs travaillant dans leur commune (ou arrondissement municipal) de résidence et on va représenter egalement le nombre d’actifs travaillant hors de leur commune (ou arrondissement municipal) de résidence.
#Barplot
barplot(mobilite_prof$C10_ACTOCC15P_ILT1, main="Répartition selon les zones des actifs travaillant dans leur commune de résidence", xlab="zone geographique",ylab="Les fréquences",col="red")
#Barplot
barplot(mobilite_prof$C10_ACTOCC15P_ILTAUT, main="Répartition selon les zones des actifs travaillant hors de leur commune de résidence", xlab="zone geographique",ylab="Les fréquences",col="red")
library('rgdal') # Lire et reprojeter les cartes
## Loading required package: sp
## rgdal: version: 1.1-8, (SVN revision 616)
## Geospatial Data Abstraction Library extensions to R successfully loaded
## Loaded GDAL runtime: GDAL 2.0.1, released 2015/09/15
## Path to GDAL shared files: E:/R-3.1.2/library/rgdal/gdal
## GDAL does not use iconv for recoding strings.
## Loaded PROJ.4 runtime: Rel. 4.9.1, 04 March 2015, [PJ_VERSION: 491]
## Path to PROJ.4 shared files: E:/R-3.1.2/library/rgdal/proj
## Linking to sp version: 1.2-3
library('plotrix') # Créer des échelles de couleurs
library('classInt')
#library("rgdal")
#regions<-readOGR(dsn="C:/Users/toshiba/Desktop/Open_Data/projet_final/regions_francaise_opendata", layer="regions-20140306-50m", verbose=TRUE)
#plot(regions)
#departement<-readOGR(dsn="C:/Users/toshiba/Desktop/Open_Data/projet_final/cle",layer="n_com_fla_000")
#plot(departement, col = "blue", border = "black", axes = TRUE)
#matche<-match.map(departement,mobilite_prof$LIBGEO,exact=TRUE)
On importe les données de la troisième base de donnée
#donnees deplacement 2015 en fonction de l'age le sexe et lieu du travail
BD1<-read.csv(file = 'C:/Users/toshiba/Desktop/Open_Data/projet_final/donnee_age_sexe_ltr.csv',sep = ";", header = TRUE, stringsAsFactors = FALSE)
plot(BD1$AGEQ65015_ILTR1_SEXE1, BD1$AGEQ65015_ILTR1_SEXE2, col=c(1,2))
barplot(BD1$AGEQ65015_ILTR1_SEXE1)
#counts<-table(BD1$AGEQ65015_ILTR1_SEXE1)#,BD1$AGEQ65015_ILTR1_SEXE2)
#counts
#barplot(counts,main="distribution selon le sex", col=c("blue", "red"),legend=rownames(counts))
#barplot(BD1$AGEQ65065_ILTR5_SEXE1,BD1$AGEQ65065_ILTR5_SEXE2, col=c(2,3))
#barplot(BD1$AGEQ65015_ILTR1_SEXE2, xlab=BD1$LIBGEO, col="red")
tableau<-matrix(c(BD1$AGEQ65015_ILTR1_SEXE1,BD1$AGEQ65015_ILTR1_SEXE2), ncol=2,byrow=T)
barplot(t(tableau), col=topo.colors(2),main="Distribution des actifs ayant un age=[15,19]
et travaillant dans leur commune de résidence",xlab="Zones géographiques", ylab="Effectifs")
legend("topleft",legend=c("Homme","Femme"),col=c(2,3),fil=topo.colors(2),cex=0.8)
Examinons la base de données BD1 qui donne la distribution de la population active de 15 ans ou plus ayant un emploi par sex et lieu de travail pour les differents arrondissements Marseille, Lyon et Paris. En constate que les individus de différent sex se répartissent différemment dans l’espace entre les zones de résidences. Mais ces differences sont-elles significatives?
L’hypothèse à tester est que les distributions sont identiques et que les différences observées sont dûs au hasard.
On choisit les colonnes suivantes:AGEQ65015_ILTR1_SEXE1 et AGEQ65015_ILTR1_SEXE2, c’est à dire les actifs qui ont un age entre 15 à 19 et qui travaillent dans le même lieu de résidence en faisant varié le SEX.
Pour voir si les conditions d’application du test sont réunis: est-ce que chaque case du tableau a un effectif supérieur ou égal à 5 et est-ce que les effectifs totaux du tableau sont supérieurs à 60 ?
#les conditions d'applications des tests
min(BD1$AGEQ65015_ILTR1_SEXE1)
## [1] 13
min(BD1$AGEQ65015_ILTR1_SEXE2)
## [1] 16
Oui, c’est le cas, le test de khi deux de contingence a du sens pour tester le lien statistique entre les lignes et les colonnes du tableau nous pouvons continuer.
Nous posons donc l’hypothèse d’indépendance : il n’y a pas de différence significative entre ces deux variables c’est_à_dire entre les hommes et les femmes. Voyons si cette hypothèse est acceptable ou non.
#Test de khi deux
tableau<-matrix(c(BD1$AGEQ65015_ILTR1_SEXE1,BD1$AGEQ65015_ILTR1_SEXE2), ncol=2,byrow=T)
#rownames(tableau)<-c(BD1$LIBGEO)
colnames(tableau)<-c("AGEQ65015_ILTR1_SEXE1","AGEQ65015_ILTR1_SEXE1")
tableau
## AGEQ65015_ILTR1_SEXE1 AGEQ65015_ILTR1_SEXE1
## [1,] 79 34
## [2,] 99 99
## [3,] 119 100
## [4,] 49 130
## [5,] 150 169
## [6,] 189 162
## [7,] 200 98
## [8,] 140 25
## [9,] 34 46
## [10,] 169 61
## [11,] 75 61
## [12,] 144 172
## [13,] 97 23
## [14,] 14 26
## [15,] 28 110
## [16,] 13 67
## [17,] 88 57
## [18,] 129 132
## [19,] 159 220
## [20,] 151 276
## [21,] 154 218
## [22,] 307 273
## [23,] 332 56
## [24,] 46 63
## [25,] 67 156
## [26,] 102 39
## [27,] 103 137
## [28,] 123 125
## [29,] 71 139
## [30,] 97 112
## [31,] 30 77
## [32,] 77 208
## [33,] 50 88
## [34,] 65 237
## [35,] 232 134
## [36,] 16 35
## [37,] 41 71
## [38,] 76 47
## [39,] 70 65
## [40,] 81 114
## [41,] 149 202
## [42,] 333 156
## [43,] 287 139
## [44,] 255 301
## [45,] 306 273
khi2<-chisq.test(tableau)
khi2
##
## Pearson's Chi-squared test
##
## data: tableau
## X-squared = 1094.091, df = 44, p-value < 2.2e-16
On a les résultats suivants:
R indique d’abord qu’il applique le test de khi deux de Karl Pearson qui est son “inventeur” : Pearson’s Chi-squared test
Ensuite le test est appliqué sur l’objet “tableau” qu’on a crée.
La statistique de test est égale à 1094.091.
Le nombre de degrés de liberté est 44 : df = (Nombre de colonne-1)(Nombre de ligne-1).
La probabilité d’avoir un indicateur de khi-deux de 1094.091 avec 44 degrés de liberté est inferieur à la p-value = 2.2e-16.
En général on accepte l’hypothèse d’indépendance lorsque p-value est supérieure à 5 % (0,05). Dans notre cas la p_value est inférieur à 0.05 donc on rejette l’hypothèse nulle.
On constate alors que la distribution des femmes a une différence significative à celle des hommes.