Première partie: Etudes Statistiques
1.Comparaison du taux d’abstention des élections législatives entre 2002 et 2012
4.Etude de corélation du taux d’abstention avec les variables socio-économiques
L’objectif de ce projet informatique est d’une part: de traiter le taux d’abstention à chaque élection à savoir les élections législatives,régionales et cantonales en utilisant des méthodes de statistiques descriptives et inférentielles vues tout au long de notre formation. D’autres part notre but est d’estimer ce taux d’abstention avec les différents indicateurs socio-économiques qui peuvent expliquer ce phénomène.
Pour ce faire,nous allons comaparer le taux d’abstention des dernières élections de chaque catégorie (législative,cantonale,régionale) afin d’extraire les motifs qui poussent les électeurs de ne pas participer à ce devoir électoral,ensuite nous allons appliquer une régression linéaire avec sélection de variables pour identifier les variables socio-économiques les plus significatives et qu’elles expliquent mieux le taux d’abstention.
Nous avons récuperé les données qui concernent les élections législatives,cantonales et régionales à partir du site https://www.data.gouv.fr, ensuite nous avons sélectionné les variables qui nous permettent de calculer le taux d’abstention par département. Ainsi,nous avons retenus les départements qui concernent la France Métropolitaine et nous avons modifié les codes des départements afin de les rendre conformes avec les codes INSEE. En ce qui concerne les indicateurs socio-économiques,nous avons importé les données à partir de l’INSEE et nous avons récuperé les variables qui nous sont nécessaires.
Dans cette section nous allons étudier le taux d’abstention par département pour les trois catégories d’élections et nous allons afficher les résultats graphiquement sur la carte de France.
Le taux d’abstention au premier tour des élections législatives 2002 est à 35,7%,par contre ce taux s’élève à 39,8% au second tour.
## taux1_par_dep_2002
## 35.71406
## taux02_par_dep_2002
## 39.81658
Nous affichons maintenant la répartition du taux d’abstention du premier et second tour par département .
On enregistre pour le premier tour les départements qui se classent dans la catégorie du 37% à savoir:Alpes Maritimes,Corse,Marne, Bas Rhin, Hauts Rhin, Val d’oise,Pas de Calais… Par contre au second tour, on enregistre une augmentation du taux d’abstention aux départements suivantes: Essonnes, Yonnes, Loiret, Marne,Isère…
## OGR data source with driver: ESRI Shapefile
## Source: "C:/Users/user/R/Bigdata/Projet open data/GEOFLA_2-1_DEPARTEMENT_SHP_LAMB93_FXX_2015-12-01/GEOFLA/1_DONNEES_LIVRAISON_2015/GEOFLA_2-1_SHP_LAMB93_FR-ED152/DEPARTEMENT", layer: "DEPARTEMENT"
## with 96 features
## It has 11 fields
## OGR data source with driver: ESRI Shapefile
## Source: "C:/Users/user/R/Bigdata/Projet open data/GEOFLA_2-1_DEPARTEMENT_SHP_LAMB93_FXX_2015-12-01/GEOFLA/1_DONNEES_LIVRAISON_2015/GEOFLA_2-1_SHP_LAMB93_FR-ED152/DEPARTEMENT", layer: "LIMITE_DEPARTEMENT"
## with 9185 features
## It has 2 fields
Pour les élections législatives de 2007,on constate que le taux d’abstention au premier tour a été établie à 39,6% et pour le deuxième tour ce taux a atteint 40,21%
## taux1_par_dep_2007
## 39.69662
## taux2_par_dep_2007
## 40.21356
Pour le premier et second tour Le taux est élevé aux départements suivants: Ain,Aisne,Alpes Maritimes,Aube,Cher,Val d’oise,la Corse, Alpes Maritimes,Hauts Savoie,Seine-Saint-Denis…
le taux d’abstention au premier tour atteint 42,9%,par contre au deuxième tour l’abstention s’élève à 44,7%
## taux_ABS
## 42.90988
## taux_ABS
## 44.72274
On enregistre un taux d’abstention très important pour les deux tours aux départements suivant: Ain,Cher,Eure,Isère,Savoie,Val d’oise,Hauts Savoie…
On constate que en 2012 le taux d’abstention a atteint un record très élevé par rapport aux deux dernières élections,ainsi il s’avère que le taux d’abstention du second tour est toujours élevé à celui du premier tour.
Maintenant on va analyser le taux d’abstention des élections cantonales entre 2004 et 2011
L’abstention au tour 1 des élections cantonales 2011 atteint 50.8% et au second tour le taux s’éleve à 52,1%
## taux_ABS_tour1
## 50.81598
## taux_ABS_tour2
## 52.11047
On affiche maintenant la répartition du taux d’abstention par département sur la carte et il semble que l’abstention a atteint les 50% au niveau national pour les deux tours,par conséquent elle est bien plus forte dans certains départements que dans d’autres.Par exemple au premier tour le taux d’abstention est élevé aux départements suivants: Ain,Bouches-du-Rhône,Calvados,Charente,Charente-Maritime,Moselle,Essonne ,Hauts-de-Seine ,Seine-Saint-Denis…
De même pour le second tour on constate une forte abstention aux départements suivants: Ain,Aube,Aude,Calvados,Côte-d’Or,Gironde,Ardennes,Essonne,Hauts-de-Seine,Seine-Saint-Denis,Val-d’Oise…
Le taux d’abstetnion au premier tour atteint 30,8% par contre au second tour ce taux s’éleve à 40,7%
## taux_ABS_tour1
## 30.81832
## taux_ABS_tour2
## 40.71974
Pour les élections de 2008 le taux d’abstention au second tour a dépassé 40%,un chiffre supérieur à celui constaté au premier tour 30,81%,ainsi on constate que les départements qui marquent une forte abstention dans les deux tours sont: Ain,Isère,Haut-Rhin ,Nord ,Essonne,Hauts-de-Seine,Seine-Saint-Denis ,Val-de-Marne,Val-d’Oise..
En 2004 on constate que le taux d’abstention au second tour a baissé par rapport au premier tour.
## taux_ABS_tour1
## 33.63225
## taux_ABS_tour2
## 31.40897
le taux d’abstention au premier tour a dépassé 33% au niveau national, un chiffre légèrement supérieur à celui constaté au second tour (31,40%).Pour les deux tours on visualise une forte abstention aux départements suivants(supérieur à 37% tour1 et 34% tour2) : Val-d’Oise,Val-de-Marne,Seine-Saint-Denis,Hauts-de-Seine,Essonne,Haut-Rhin,Meurthe-et-Moselle,Loiret,Isère ,Bouches-du-Rhône,Ain…
On conclut que l’abstention en 2011 est très élvée par rapport aux élections du 2008 et 2004, et ce pour les deux tours,donc il semble que le taux d’abstention augmente au cours des années.
On traite maintenant la dernière catégorie des élections,celle des élections régionales.
En 2010,le taux d’abstention aux élections a atteint 53,7% au premier tour et a baissé de 48,8% au second tour
## taux_ABS_tour1
## 53.7
## taux_ABS_tour2
## 48.88163
*Premier tour:
On enregistre une forte abstention aux départements suivants: Var,Essone,Hauts_de_Seine,Isère,Val de Marne,Val d’oise…
*Deuxième tour:
Il s’avère que au deuxième tour une baisse abstention par rapport au premier tour par exemple aux départements suivants: Ain,Gironde,Hauts-Marne,Meurthe,Moselle,Val de Marne…
Le taux d’abstention en 2004 a atteint 38,07% au premier tour,pour le second tour ce taux a baissé de 34,5%.
## taux_ABS_tour1
## 38.07368
## taux_ABS_tour2
## 34.50351
On enregistre une forte abstention aux départements suivants (tour1 40%,tour2 36%): Ain,Isère,Loire,Mosselle,Hauts_Savoie,Seine-Saint-denis,Val-de-Marne,Haut-Rhin,Bas-Rhin,Meurthe-et-Moselle,Ain…
On remarque que le taux d’abstention au deuxième tour pour les deux élections baisse par rapport au premier tour,ainsi on constate que en 2010 le taux d’abstention reste élevé à celui du 2004.
Les élections de 1992 se font en un seul tour et Le scrutin est marqué par une abstention de 30,57%.
## taux_ABS
## 30.57447
On constate que les départements où le taux d’abstention a dépassé 34% sont: Ain,Aude,Côte-d’Or,Ille-et-Vilaine,Marne,Moselle,Haute-Savoie,Savoie,Paris,Seine-Saint-Denis,Val-de-Marne,Val-d’Oise…
On s’interésse maintenant à l’étude de la corrélation du taux d’abstention avec les indicateurs socio-économique afin d’identifier les variables qui influent plus les électeurs de s’abstenir aux élections.Pour ce faire, nous avons récuperé les fichiers csv du recensement 2010 et qui contiennent les indicateurs socio-économiques suivants:
Emploi : taux de chômage,type de contrat du travail ,caractérstiques d’emploi.
Logement : la proportion des résidences principales,la proportion des résidences secondaires,la proportion des maisons en France,la proportion des appartements en France.
Population : la proportion de la population agée de 15_29ans,30ans plus,45_59ans,60_74ans.
Formation & diplôme : non scolarisé,scolarisé 25.29ans,sans diplôme,non scolarisé. CEP
On constate que les taux d’abstentions des élections législatives 2012,2007 et 2002 sont corrélés positivement avec les variables salarie_H_FP et salarie_F_FP c’est à dire avec les proportions des hommes et des femmes qui occupent la fonction publique.Ainsi, on constate que les taux d’abstention des élections 2012 et 2002 sont corrélés positivement avec les variables salarie_H_CDD et salarie_F_CDD c’est à dire les proportions des hommes et des femmes salariées avec un contrat CDD.
Pour le second tour on remarque que les taux d’abstentions des élections en 2004 et 2008 sont corrélés positivement avec la proportion des résidences principales(res.princ),la proportion de la population active agée de 15-29ans,les proportions des hommes et des femmes salariées aves un contrat CDD et les salariés qui occupent la fonction public (salarie_H_FP e salarie_F_FP).
On remarque que le taux d’abstention au premier tour est corrélé fortement avec les variables residence principale et la proportion de la population agée de 15-29ans ,ainsi il parait que les variables salari_H_FP et salarie_F_FP sont fortement corrélées aves le taux d’abstention en 2004 et 2010.
On constate que la variance expliquée par les deux premiers axes est 59% ainsi la plupart des variables sont bien présrntées puisque leurs flèches sont proches du cercle de corrélation.
les taux d’abstentions des élections législatives 2002,2007,2012 sont corrélés positivement avec le premier axe,les variabels salarié H_CDD et salarié F_CDD sont corrélés avec le premier axe
Pour les élections cantonales on constate que la variance expliquée est par les deux premiers axes est 59,27%.
les variables taux_abs04 et taux_abs08 sont corrélé positivement avec le premier axe ,salarie_ H_FP et salarie_F_FP sont corrélés avec taux_abs04 et salarie_H_CDD et salarie_F_CDD sont corrélés avec taux_abs04.
Pour les élections régionales on enregistre 59,86% de la variance expliquée par les deux premiers axes et que taux_abs_10 et taux_abs04 sont corrélés positivement avec le premier axe,Salarie_H_CDD et salarie_F_CDD sont aussi corrélés avec taux_abs04 et taux_abs_10 et la variable salarie_H_FP est corrélé avec taux_abs04 et taux_abs_10.
Maintenant on va procéder à une régression linéaire multiple par département afin de déterminer les variables les plus explicatives à l’abstention aux élections,ainsi on va essayer de comparer les élections de même catégories afin de savoir si les variables socio-économique restent les mêmesfacteurs pour s’abstenir au cours des années.
Maintenant on va régresser le taux d’abstention avec les 32 variables socio-économiques, pour cela on va construire le modèle de régression sur les élections du second tour puisque le taux d’abstention est élevé à celui du premier tour.
##
## Call:
## lm(formula = mod_12$taux_abs ~ ., data = tabb_legi2[, c(-1, -2)])
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.2074 -1.2511 -0.1959 1.1062 5.3022
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 9670.7158 8298.2151 1.165
## res.princ -0.9166 0.6042 -1.517
## res.second -0.9350 0.5461 -1.712
## Maison -16.7250 4.4126 -3.790
## Appartement -16.4663 4.4284 -3.718
## pourcentage.pop15_29ans 4.0499 0.7253 5.584
## pourcentage_pop29 1.8537 0.8405 2.206
## pourcentage_pop30_44ans -0.6707 0.9022 -0.743
## pourcentage_pop45_59ans 2.1277 0.8259 2.576
## pourcentage.pop60_74ans 2.1162 1.0379 2.039
## `chomage_par_dep[-c(96, 97, 98, 99, 100), 5]` -1.0702 0.3243 -3.300
## scolarisé.25.29ans 0.7085 0.4742 1.494
## scolarisé.30ansplus -0.1878 0.2921 -0.643
## non.scolarisé. -172.9385 160.8234 -1.075
## sans.diplome. -0.2175 0.4948 -0.440
## non.scolarisé.CEP.15ans. -2.6944 0.7856 -3.430
## non.scolarisé.Ens_Sup. -4.3450 1.2168 -3.571
## salarié_H.15ansplus 15.6546 7.8900 1.984
## Salarié_H_FP 8.1458 9.8505 0.827
## Salarié_H_CDD 15.6974 6.9095 2.272
## Salarié_H_Intérim 13.5838 6.8303 1.989
## Salarié_H_EmploisAidés 12.5112 6.6059 1.894
## salarié_F.15ansplus -18.4332 8.7468 -2.107
## Salarié_F_FP -20.8255 14.4632 -1.440
## Salarié_F_CDD -4.6700 5.2824 -0.884
## Salarié_F_Intérim -5.0206 5.8109 -0.864
## Salarié_F_EmploisAidés -10.8798 6.2574 -1.739
## Travail_commune_res -0.7213 0.3556 -2.028
## Travail_autre_commune -0.4252 0.3908 -1.088
## meme_dep -0.3535 0.1705 -2.073
## meme.région -0.7401 0.1542 -4.800
## autre_région -0.6229 0.1627 -3.828
## Pr(>|t|)
## (Intercept) 0.248252
## res.princ 0.134230
## res.second 0.091769 .
## Maison 0.000339 ***
## Appartement 0.000429 ***
## pourcentage.pop15_29ans 5.34e-07 ***
## pourcentage_pop29 0.031072 *
## pourcentage_pop30_44ans 0.459994
## pourcentage_pop45_59ans 0.012343 *
## pourcentage.pop60_74ans 0.045656 *
## `chomage_par_dep[-c(96, 97, 98, 99, 100), 5]` 0.001595 **
## scolarisé.25.29ans 0.140141
## scolarisé.30ansplus 0.522711
## non.scolarisé. 0.286327
## sans.diplome. 0.661741
## non.scolarisé.CEP.15ans. 0.001071 **
## non.scolarisé.Ens_Sup. 0.000688 ***
## salarié_H.15ansplus 0.051605 .
## Salarié_H_FP 0.411388
## Salarié_H_CDD 0.026520 *
## Salarié_H_Intérim 0.051074 .
## Salarié_H_EmploisAidés 0.062825 .
## salarié_F.15ansplus 0.039067 *
## Salarié_F_FP 0.154850
## Salarié_F_CDD 0.380021
## Salarié_F_Intérim 0.390871
## Salarié_F_EmploisAidés 0.086972 .
## Travail_commune_res 0.046774 *
## Travail_autre_commune 0.280666
## meme_dep 0.042311 *
## meme.région 1.01e-05 ***
## autre_région 0.000300 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.264 on 63 degrees of freedom
## Multiple R-squared: 0.8514, Adjusted R-squared: 0.7783
## F-statistic: 11.64 on 31 and 63 DF, p-value: 3.086e-16
On constate que le coefficient de détermination est égale à 0,85 donc 85% des points (départements) sont déterminés par la droite de régression,ainsi la statistique de Fisher est significative au seuil 5% donc on conclut que le modèle est significatif Ainsi,les p-value associées aux variables explicatives montrent que certaines variables sont significatives à un seuil de 5% (test de student ),par exemple les variables chomage_par_dep, res.prin,Maison sont significatives à un seuil de 5%,par contre les variables qui ne sont pas significatives l’hypothèse de nullité est acceptée
Maintenant après avoir appliqué la méthode de sélection des variables STEP Aic Backward,le modèle a sélectioné 19 variables significatives au seuil 5% à savoir: res.princ,res.secondaire,Maison,appartement,pourcentage.pop.18ans,pourcentage.pop.29ans,pourcentage.pop.59ans,pourcentage.pop.60ans,chomage_par dep,Ens_sup,CEP,salarie_H_CDD,salarié_H_intérim,Travail_commune_res,meme_dep,meme.region,autre_region.
On constate que le coefficient de détermination est égale à 0,65 donc 65% des points (départements) sont déterminés par la droite de régression,ainsi la statistique de Fisher est significative au seuil 5% donc on conclut que le modèle est significatif.
Le modèle sélectionne 15 variables significatives à savoir: la proportion des résidences principales et secondaires,la propotion de la population agéé de 15-29ans,45-59ans,60-74ans,et le taux de chomage,la propotion des salariées agées de 25-29ans et la proportion des salariés qui travaillent dans la meme région.
Pour les élections de 2012 le coefficient de détermination est égale à 0,75 donc 75% des points (départements) sont déterminés par la droite de régression,ainsi la statistique de Fisher est significative au seuil 5% donc on conclut que le modèle est significatif.
Pour les élections de 2012 le modèle à sélectioné les variabeles suivantes: la proportion de la population agée de 15-29ans,30-44ans,la proportion des gens non scolarisée et qui possédent seulement un certificat d’enseignement primaire (CEP),la proportion des gens qui ne possédent pas un diplôme supérieur,la proportion des hommes et des femmes salariée avec un contrat CDD et intérimaire,la proportion des femmes occupant la fonction publique et la proportion des salariés qui travaillent dans la meme région ou autre.
Ici le coefficient de détermination est égale à 0,35 donc 35% des points (départements) sont déterminés par la droite de régression,ainsi la statistique de Fisher n’est pas significative au seuil 5% donc on conclut que le modèle n’est pas significative.
Pour les élections cantonales 2011 la méthode de sélection de variables STEP AIC Backward à sélectionnée les variables suivantes: la proportion de la population agée de 15-29ans,la proportion des gens scolarisée agée de 25-29ans,30ans ou plus,la propotion des hommes des femmes intérimaires,des femmes occupant la fonction publique et la proportion des gens qui travaillent dans une autre commune.
On constate que le coefficient de détermination est égale à 0,81 donc 81% des points (départements) sont déterminés par la droite de régression,ainsi la statistique de Fisher est significative au seuil 5% donc on conclut que le modèle est significative.
Pour les élections de 2008, les variables les plus significatives sont: la proportion de la population agée de 15-29ans,la proportion de la population qui ne possédent pas un diplome d’enseignement supérieur,la proportion des hommes et des femmes salariés avec un contrat CDD et les intérimaires,la proportion des gens qui travaillent dans la commune de résidence et autre commune.
On constate que le coefficient de détermination est égale à 0,78 donc 78% des points (départements) sont déterminés par la droite de régression,ainsi la statistique de Fisher est significative au seuil 5% donc on conclut que le modèle est significatif.
La méthode de sélection Step AIC Backward a sélectionnée les variables significativement suivantes: la proportion de résidences principales,résidences secondaires,la proportion de la population agée de 15-29ans,45-59ans,le taux de chomage,la proportion des gens qui ne possédent pas un diplome supérieur,la proportion des hommes et des femmes salariée avec un contrat CDD,intérim et la proportion des gens qui travaillent dans la région ou commune de résidence.
On constate que le coefficient de détermination est égale à 0,81 donc 81% des points (départements) sont déterminés par la droite de régression,ainsi la statistique de Fisher est significative au seuil 5% donc on conclut que le modèle est significatif.
le modéle a sélectioné les variables suivantes: la proportion de résidences principales, secondaires,la proportion de la population agée de 15-29ans,45-59ans,60-74,le taux de chomage,la proportion des citoyens qui ne possédent pas un diplome supérieur,la proportion des femmes salariées occupant la fonction publique,la proportion des citoyens qui travaillent dans dans la commune ou la région de résidence et dans des autres régions ou communes de résidence
On constate que le coefficient de détermination est égale à 0,80 donc 80% des points (départements) sont déterminés par la droite de régression,ainsi la statistique de Fisher est significative au seuil 5% donc on conclut que le modèle est significatif.
Le modèle a sélectionné les variables significativement au seuil 5% suivantes: la proportion des résidences principales et secondaires,la proportion de la population agée de 15-29ans,45-59ans,60-74ans,le taux de chomage,la proportion des non scolarisées, non diplomées,des hommes salariés avec un contrat CDD,intérim,les femmes qui occupent la fonction publique,les gens qui travaillent dans les communes de résidence,meme région ou autre région de résidence.
Dans notre projet on a étudié les liens entre le taux d’abstention eux élections et les variables socio-économiques et nous avons déduit que la taux d’abstention est lié aux variables de type logements,tuax de chomage,la population jeune,les caractéristiques d’emploi par conséquent cette étude semble importante pour les candidats et leur partis dans le but de se focaliser leurs prochaines compagnes dans les lieus ou le taux d’abstention est significatif.
Les élections législatives:https://www.data.gouv.fr/fr/datasets/elections-legislatives-1958-2012/.
Les élections régionales:https://www.data.gouv.fr/fr/datasets/elections-regionales-1986-2010/.
Les élections cantonales:https://www.data.gouv.fr/fr/datasets/elections-cantonales-1988-2011/.
Les données des indicateurs socio-économiques: https://www.insee.fr/fr/statistiques.
retour vers le Haut de page