Plan

Introduction

Première partie: Etudes Statistiques

1.Comparaison du taux d’abstention des élections législatives entre 2002 et 2012

2.Les élections cantonales

3.les élections régionales

4.Etude de corélation du taux d’abstention avec les variables socio-économiques

Deuxième partie: Régression linéaire

1.Les élections législatives

2.Les élections cantonales

3.Les élections régionales

Conclusion

Réferences

Introduction

L’objectif de ce projet informatique est d’une part: de traiter le taux d’abstention à chaque élection à savoir les élections législatives,régionales et cantonales en utilisant des méthodes de statistiques descriptives et inférentielles vues tout au long de notre formation. D’autres part notre but est d’estimer ce taux d’abstention avec les différents indicateurs socio-économiques qui peuvent expliquer ce phénomène.

Pour ce faire,nous allons comaparer le taux d’abstention des dernières élections de chaque catégorie (législative,cantonale,régionale) afin d’extraire les motifs qui poussent les électeurs de ne pas participer à ce devoir électoral,ensuite nous allons appliquer une régression linéaire avec sélection de variables pour identifier les variables socio-économiques les plus significatives et qu’elles expliquent mieux le taux d’abstention.

Traitement des données

Nous avons récuperé les données qui concernent les élections législatives,cantonales et régionales à partir du site https://www.data.gouv.fr, ensuite nous avons sélectionné les variables qui nous permettent de calculer le taux d’abstention par département. Ainsi,nous avons retenus les départements qui concernent la France Métropolitaine et nous avons modifié les codes des départements afin de les rendre conformes avec les codes INSEE. En ce qui concerne les indicateurs socio-économiques,nous avons importé les données à partir de l’INSEE et nous avons récuperé les variables qui nous sont nécessaires.

Première partie: Etudes Statistiques

Dans cette section nous allons étudier le taux d’abstention par département pour les trois catégories d’élections et nous allons afficher les résultats graphiquement sur la carte de France.

1.Comparaison du taux d’abstention des élections législatives entre 2002 et 2012

1.1.Les élections législatives 2002

Le taux d’abstention au premier tour des élections législatives 2002 est à 35,7%,par contre ce taux s’élève à 39,8% au second tour.

## taux1_par_dep_2002 
##           35.71406
## taux02_par_dep_2002 
##            39.81658

1.2.Représentation sur la carte

Nous affichons maintenant la répartition du taux d’abstention du premier et second tour par département .

On enregistre pour le premier tour les départements qui se classent dans la catégorie du 37% à savoir:Alpes Maritimes,Corse,Marne, Bas Rhin, Hauts Rhin, Val d’oise,Pas de Calais… Par contre au second tour, on enregistre une augmentation du taux d’abstention aux départements suivantes: Essonnes, Yonnes, Loiret, Marne,Isère…

## OGR data source with driver: ESRI Shapefile 
## Source: "C:/Users/user/R/Bigdata/Projet open data/GEOFLA_2-1_DEPARTEMENT_SHP_LAMB93_FXX_2015-12-01/GEOFLA/1_DONNEES_LIVRAISON_2015/GEOFLA_2-1_SHP_LAMB93_FR-ED152/DEPARTEMENT", layer: "DEPARTEMENT"
## with 96 features
## It has 11 fields
## OGR data source with driver: ESRI Shapefile 
## Source: "C:/Users/user/R/Bigdata/Projet open data/GEOFLA_2-1_DEPARTEMENT_SHP_LAMB93_FXX_2015-12-01/GEOFLA/1_DONNEES_LIVRAISON_2015/GEOFLA_2-1_SHP_LAMB93_FR-ED152/DEPARTEMENT", layer: "LIMITE_DEPARTEMENT"
## with 9185 features
## It has 2 fields

1.3.Les élections 2007

Pour les élections législatives de 2007,on constate que le taux d’abstention au premier tour a été établie à 39,6% et pour le deuxième tour ce taux a atteint 40,21%

## taux1_par_dep_2007 
##           39.69662
## taux2_par_dep_2007 
##           40.21356

1.4.Représentation sur la carte

Pour le premier et second tour Le taux est élevé aux départements suivants: Ain,Aisne,Alpes Maritimes,Aube,Cher,Val d’oise,la Corse, Alpes Maritimes,Hauts Savoie,Seine-Saint-Denis…

1.5.les élections législative 2012

le taux d’abstention au premier tour atteint 42,9%,par contre au deuxième tour l’abstention s’élève à 44,7%

## taux_ABS 
## 42.90988
## taux_ABS 
## 44.72274

1.6.Représentation sur la carte

On enregistre un taux d’abstention très important pour les deux tours aux départements suivant: Ain,Cher,Eure,Isère,Savoie,Val d’oise,Hauts Savoie…

On constate que en 2012 le taux d’abstention a atteint un record très élevé par rapport aux deux dernières élections,ainsi il s’avère que le taux d’abstention du second tour est toujours élevé à celui du premier tour.

2.Les élections cantonales

Maintenant on va analyser le taux d’abstention des élections cantonales entre 2004 et 2011

2.1.Les élections 2011

L’abstention au tour 1 des élections cantonales 2011 atteint 50.8% et au second tour le taux s’éleve à 52,1%

## taux_ABS_tour1 
##       50.81598
## taux_ABS_tour2 
##       52.11047

2.2.Représentation sur la carte

On affiche maintenant la répartition du taux d’abstention par département sur la carte et il semble que l’abstention a atteint les 50% au niveau national pour les deux tours,par conséquent elle est bien plus forte dans certains départements que dans d’autres.Par exemple au premier tour le taux d’abstention est élevé aux départements suivants: Ain,Bouches-du-Rhône,Calvados,Charente,Charente-Maritime,Moselle,Essonne ,Hauts-de-Seine ,Seine-Saint-Denis…

De même pour le second tour on constate une forte abstention aux départements suivants: Ain,Aube,Aude,Calvados,Côte-d’Or,Gironde,Ardennes,Essonne,Hauts-de-Seine,Seine-Saint-Denis,Val-d’Oise…

2.3.Les élections 2008

Le taux d’abstetnion au premier tour atteint 30,8% par contre au second tour ce taux s’éleve à 40,7%

## taux_ABS_tour1 
##       30.81832
## taux_ABS_tour2 
##       40.71974

2.4. Représentation sur la carte

Pour les élections de 2008 le taux d’abstention au second tour a dépassé 40%,un chiffre supérieur à celui constaté au premier tour 30,81%,ainsi on constate que les départements qui marquent une forte abstention dans les deux tours sont: Ain,Isère,Haut-Rhin ,Nord ,Essonne,Hauts-de-Seine,Seine-Saint-Denis ,Val-de-Marne,Val-d’Oise..

2.5.les élections 2004

En 2004 on constate que le taux d’abstention au second tour a baissé par rapport au premier tour.

## taux_ABS_tour1 
##       33.63225
## taux_ABS_tour2 
##       31.40897

2.6.Représentation sur la carte

le taux d’abstention au premier tour a dépassé 33% au niveau national, un chiffre légèrement supérieur à celui constaté au second tour (31,40%).Pour les deux tours on visualise une forte abstention aux départements suivants(supérieur à 37% tour1 et 34% tour2) : Val-d’Oise,Val-de-Marne,Seine-Saint-Denis,Hauts-de-Seine,Essonne,Haut-Rhin,Meurthe-et-Moselle,Loiret,Isère ,Bouches-du-Rhône,Ain…

On conclut que l’abstention en 2011 est très élvée par rapport aux élections du 2008 et 2004, et ce pour les deux tours,donc il semble que le taux d’abstention augmente au cours des années.

3.les élections régionales

On traite maintenant la dernière catégorie des élections,celle des élections régionales.

3.1.Les élections 2010

En 2010,le taux d’abstention aux élections a atteint 53,7% au premier tour et a baissé de 48,8% au second tour

## taux_ABS_tour1 
##           53.7
## taux_ABS_tour2 
##       48.88163

3.2.Représentation sur la carte

*Premier tour:

On enregistre une forte abstention aux départements suivants: Var,Essone,Hauts_de_Seine,Isère,Val de Marne,Val d’oise…

*Deuxième tour:

Il s’avère que au deuxième tour une baisse abstention par rapport au premier tour par exemple aux départements suivants: Ain,Gironde,Hauts-Marne,Meurthe,Moselle,Val de Marne…

3.3.les élections 2004

Le taux d’abstention en 2004 a atteint 38,07% au premier tour,pour le second tour ce taux a baissé de 34,5%.

## taux_ABS_tour1 
##       38.07368
## taux_ABS_tour2 
##       34.50351

3.4.Représentation sur la carte

On enregistre une forte abstention aux départements suivants (tour1 40%,tour2 36%): Ain,Isère,Loire,Mosselle,Hauts_Savoie,Seine-Saint-denis,Val-de-Marne,Haut-Rhin,Bas-Rhin,Meurthe-et-Moselle,Ain…

On remarque que le taux d’abstention au deuxième tour pour les deux élections baisse par rapport au premier tour,ainsi on constate que en 2010 le taux d’abstention reste élevé à celui du 2004.

3.5.Les élections 1992

Les élections de 1992 se font en un seul tour et Le scrutin est marqué par une abstention de 30,57%.

## taux_ABS 
## 30.57447

3.6 Représentation sur la carte

On constate que les départements où le taux d’abstention a dépassé 34% sont: Ain,Aude,Côte-d’Or,Ille-et-Vilaine,Marne,Moselle,Haute-Savoie,Savoie,Paris,Seine-Saint-Denis,Val-de-Marne,Val-d’Oise…

4.Etude de corélation du taux d’abstention avec les variables socio-économiques

On s’interésse maintenant à l’étude de la corrélation du taux d’abstention avec les indicateurs socio-économique afin d’identifier les variables qui influent plus les électeurs de s’abstenir aux élections.Pour ce faire, nous avons récuperé les fichiers csv du recensement 2010 et qui contiennent les indicateurs socio-économiques suivants:

Emploi : taux de chômage,type de contrat du travail ,caractérstiques d’emploi.

Logement : la proportion des résidences principales,la proportion des résidences secondaires,la proportion des maisons en France,la proportion des appartements en France.

Population : la proportion de la population agée de 15_29ans,30ans plus,45_59ans,60_74ans.

Formation & diplôme : non scolarisé,scolarisé 25.29ans,sans diplôme,non scolarisé. CEP

a).les élections législatives

On constate que les taux d’abstentions des élections législatives 2012,2007 et 2002 sont corrélés positivement avec les variables salarie_H_FP et salarie_F_FP c’est à dire avec les proportions des hommes et des femmes qui occupent la fonction publique.Ainsi, on constate que les taux d’abstention des élections 2012 et 2002 sont corrélés positivement avec les variables salarie_H_CDD et salarie_F_CDD c’est à dire les proportions des hommes et des femmes salariées avec un contrat CDD.

b).les élections cantonales

Pour le second tour on remarque que les taux d’abstentions des élections en 2004 et 2008 sont corrélés positivement avec la proportion des résidences principales(res.princ),la proportion de la population active agée de 15-29ans,les proportions des hommes et des femmes salariées aves un contrat CDD et les salariés qui occupent la fonction public (salarie_H_FP e salarie_F_FP).

c).les élections régionales

On remarque que le taux d’abstention au premier tour est corrélé fortement avec les variables residence principale et la proportion de la population agée de 15-29ans ,ainsi il parait que les variables salari_H_FP et salarie_F_FP sont fortement corrélées aves le taux d’abstention en 2004 et 2010.

5.Analyse en composantes principales

a).les élections législatives

On constate que la variance expliquée par les deux premiers axes est 59% ainsi la plupart des variables sont bien présrntées puisque leurs flèches sont proches du cercle de corrélation.

les taux d’abstentions des élections législatives 2002,2007,2012 sont corrélés positivement avec le premier axe,les variabels salarié H_CDD et salarié F_CDD sont corrélés avec le premier axe

b).les élections Cantonales:

Pour les élections cantonales on constate que la variance expliquée est par les deux premiers axes est 59,27%.

les variables taux_abs04 et taux_abs08 sont corrélé positivement avec le premier axe ,salarie_ H_FP et salarie_F_FP sont corrélés avec taux_abs04 et salarie_H_CDD et salarie_F_CDD sont corrélés avec taux_abs04.

c).les élections régionales:

Pour les élections régionales on enregistre 59,86% de la variance expliquée par les deux premiers axes et que taux_abs_10 et taux_abs04 sont corrélés positivement avec le premier axe,Salarie_H_CDD et salarie_F_CDD sont aussi corrélés avec taux_abs04 et taux_abs_10 et la variable salarie_H_FP est corrélé avec taux_abs04 et taux_abs_10.

Deuxième partie: Régression linéaire

Maintenant on va procéder à une régression linéaire multiple par département afin de déterminer les variables les plus explicatives à l’abstention aux élections,ainsi on va essayer de comparer les élections de même catégories afin de savoir si les variables socio-économique restent les mêmesfacteurs pour s’abstenir au cours des années.

1.Les élections législatives

1.1.les élections législatives 2002

Maintenant on va régresser le taux d’abstention avec les 32 variables socio-économiques, pour cela on va construire le modèle de régression sur les élections du second tour puisque le taux d’abstention est élevé à celui du premier tour.

a). la régression linéaire

## 
## Call:
## lm(formula = mod_12$taux_abs ~ ., data = tabb_legi2[, c(-1, -2)])
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.2074 -1.2511 -0.1959  1.1062  5.3022 
## 
## Coefficients:
##                                                Estimate Std. Error t value
## (Intercept)                                   9670.7158  8298.2151   1.165
## res.princ                                       -0.9166     0.6042  -1.517
## res.second                                      -0.9350     0.5461  -1.712
## Maison                                         -16.7250     4.4126  -3.790
## Appartement                                    -16.4663     4.4284  -3.718
## pourcentage.pop15_29ans                          4.0499     0.7253   5.584
## pourcentage_pop29                                1.8537     0.8405   2.206
## pourcentage_pop30_44ans                         -0.6707     0.9022  -0.743
## pourcentage_pop45_59ans                          2.1277     0.8259   2.576
## pourcentage.pop60_74ans                          2.1162     1.0379   2.039
## `chomage_par_dep[-c(96, 97, 98, 99, 100), 5]`   -1.0702     0.3243  -3.300
## scolarisé.25.29ans                               0.7085     0.4742   1.494
## scolarisé.30ansplus                             -0.1878     0.2921  -0.643
## non.scolarisé.                                -172.9385   160.8234  -1.075
## sans.diplome.                                   -0.2175     0.4948  -0.440
## non.scolarisé.CEP.15ans.                        -2.6944     0.7856  -3.430
## non.scolarisé.Ens_Sup.                          -4.3450     1.2168  -3.571
## salarié_H.15ansplus                             15.6546     7.8900   1.984
## Salarié_H_FP                                     8.1458     9.8505   0.827
## Salarié_H_CDD                                   15.6974     6.9095   2.272
## Salarié_H_Intérim                               13.5838     6.8303   1.989
## Salarié_H_EmploisAidés                          12.5112     6.6059   1.894
## salarié_F.15ansplus                            -18.4332     8.7468  -2.107
## Salarié_F_FP                                   -20.8255    14.4632  -1.440
## Salarié_F_CDD                                   -4.6700     5.2824  -0.884
## Salarié_F_Intérim                               -5.0206     5.8109  -0.864
## Salarié_F_EmploisAidés                         -10.8798     6.2574  -1.739
## Travail_commune_res                             -0.7213     0.3556  -2.028
## Travail_autre_commune                           -0.4252     0.3908  -1.088
## meme_dep                                        -0.3535     0.1705  -2.073
## meme.région                                     -0.7401     0.1542  -4.800
## autre_région                                    -0.6229     0.1627  -3.828
##                                               Pr(>|t|)    
## (Intercept)                                   0.248252    
## res.princ                                     0.134230    
## res.second                                    0.091769 .  
## Maison                                        0.000339 ***
## Appartement                                   0.000429 ***
## pourcentage.pop15_29ans                       5.34e-07 ***
## pourcentage_pop29                             0.031072 *  
## pourcentage_pop30_44ans                       0.459994    
## pourcentage_pop45_59ans                       0.012343 *  
## pourcentage.pop60_74ans                       0.045656 *  
## `chomage_par_dep[-c(96, 97, 98, 99, 100), 5]` 0.001595 ** 
## scolarisé.25.29ans                            0.140141    
## scolarisé.30ansplus                           0.522711    
## non.scolarisé.                                0.286327    
## sans.diplome.                                 0.661741    
## non.scolarisé.CEP.15ans.                      0.001071 ** 
## non.scolarisé.Ens_Sup.                        0.000688 ***
## salarié_H.15ansplus                           0.051605 .  
## Salarié_H_FP                                  0.411388    
## Salarié_H_CDD                                 0.026520 *  
## Salarié_H_Intérim                             0.051074 .  
## Salarié_H_EmploisAidés                        0.062825 .  
## salarié_F.15ansplus                           0.039067 *  
## Salarié_F_FP                                  0.154850    
## Salarié_F_CDD                                 0.380021    
## Salarié_F_Intérim                             0.390871    
## Salarié_F_EmploisAidés                        0.086972 .  
## Travail_commune_res                           0.046774 *  
## Travail_autre_commune                         0.280666    
## meme_dep                                      0.042311 *  
## meme.région                                   1.01e-05 ***
## autre_région                                  0.000300 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.264 on 63 degrees of freedom
## Multiple R-squared:  0.8514, Adjusted R-squared:  0.7783 
## F-statistic: 11.64 on 31 and 63 DF,  p-value: 3.086e-16

On constate que le coefficient de détermination est égale à 0,85 donc 85% des points (départements) sont déterminés par la droite de régression,ainsi la statistique de Fisher est significative au seuil 5% donc on conclut que le modèle est significatif Ainsi,les p-value associées aux variables explicatives montrent que certaines variables sont significatives à un seuil de 5% (test de student ),par exemple les variables chomage_par_dep, res.prin,Maison sont significatives à un seuil de 5%,par contre les variables qui ne sont pas significatives l’hypothèse de nullité est acceptée

b).la sélection des variables

Maintenant après avoir appliqué la méthode de sélection des variables STEP Aic Backward,le modèle a sélectioné 19 variables significatives au seuil 5% à savoir: res.princ,res.secondaire,Maison,appartement,pourcentage.pop.18ans,pourcentage.pop.29ans,pourcentage.pop.59ans,pourcentage.pop.60ans,chomage_par dep,Ens_sup,CEP,salarie_H_CDD,salarié_H_intérim,Travail_commune_res,meme_dep,meme.region,autre_region.

1.2.les élections législatives 2007

a). la régression linéaire

On constate que le coefficient de détermination est égale à 0,65 donc 65% des points (départements) sont déterminés par la droite de régression,ainsi la statistique de Fisher est significative au seuil 5% donc on conclut que le modèle est significatif.

b).la sélection des variables

Le modèle sélectionne 15 variables significatives à savoir: la proportion des résidences principales et secondaires,la propotion de la population agéé de 15-29ans,45-59ans,60-74ans,et le taux de chomage,la propotion des salariées agées de 25-29ans et la proportion des salariés qui travaillent dans la meme région.

1.3.les élections législatives 2012

a). la régression linéaire

Pour les élections de 2012 le coefficient de détermination est égale à 0,75 donc 75% des points (départements) sont déterminés par la droite de régression,ainsi la statistique de Fisher est significative au seuil 5% donc on conclut que le modèle est significatif.

b).la sélection des variables avec STEP Aic Backward

Pour les élections de 2012 le modèle à sélectioné les variabeles suivantes: la proportion de la population agée de 15-29ans,30-44ans,la proportion des gens non scolarisée et qui possédent seulement un certificat d’enseignement primaire (CEP),la proportion des gens qui ne possédent pas un diplôme supérieur,la proportion des hommes et des femmes salariée avec un contrat CDD et intérimaire,la proportion des femmes occupant la fonction publique et la proportion des salariés qui travaillent dans la meme région ou autre.

2.Les élections cantonales

2.1.les élections cantonales 2011

a) la régression linéaire

Ici le coefficient de détermination est égale à 0,35 donc 35% des points (départements) sont déterminés par la droite de régression,ainsi la statistique de Fisher n’est pas significative au seuil 5% donc on conclut que le modèle n’est pas significative.

b).la sélection des variables avec STEP Aic Backward

Pour les élections cantonales 2011 la méthode de sélection de variables STEP AIC Backward à sélectionnée les variables suivantes: la proportion de la population agée de 15-29ans,la proportion des gens scolarisée agée de 25-29ans,30ans ou plus,la propotion des hommes des femmes intérimaires,des femmes occupant la fonction publique et la proportion des gens qui travaillent dans une autre commune.

2.2.les élections cantonales 2008

a).la régression linéaire

On constate que le coefficient de détermination est égale à 0,81 donc 81% des points (départements) sont déterminés par la droite de régression,ainsi la statistique de Fisher est significative au seuil 5% donc on conclut que le modèle est significative.

b).la sélection des variables avec STEP Aic Backward

Pour les élections de 2008, les variables les plus significatives sont: la proportion de la population agée de 15-29ans,la proportion de la population qui ne possédent pas un diplome d’enseignement supérieur,la proportion des hommes et des femmes salariés avec un contrat CDD et les intérimaires,la proportion des gens qui travaillent dans la commune de résidence et autre commune.

2.3.les élections cantonales 2004

a).la régression linéaire

On constate que le coefficient de détermination est égale à 0,78 donc 78% des points (départements) sont déterminés par la droite de régression,ainsi la statistique de Fisher est significative au seuil 5% donc on conclut que le modèle est significatif.

b).la sélection des variables avec STEP Aic Backward

La méthode de sélection Step AIC Backward a sélectionnée les variables significativement suivantes: la proportion de résidences principales,résidences secondaires,la proportion de la population agée de 15-29ans,45-59ans,le taux de chomage,la proportion des gens qui ne possédent pas un diplome supérieur,la proportion des hommes et des femmes salariée avec un contrat CDD,intérim et la proportion des gens qui travaillent dans la région ou commune de résidence.

3.Les élections régionales

2.4.les élections régionales 2010

a).la régression linéaire

On constate que le coefficient de détermination est égale à 0,81 donc 81% des points (départements) sont déterminés par la droite de régression,ainsi la statistique de Fisher est significative au seuil 5% donc on conclut que le modèle est significatif.

b).la sélection des variables avec STEP Aic Backward

le modéle a sélectioné les variables suivantes: la proportion de résidences principales, secondaires,la proportion de la population agée de 15-29ans,45-59ans,60-74,le taux de chomage,la proportion des citoyens qui ne possédent pas un diplome supérieur,la proportion des femmes salariées occupant la fonction publique,la proportion des citoyens qui travaillent dans dans la commune ou la région de résidence et dans des autres régions ou communes de résidence

3.2 les élections régionales 2004

a).la régression linéaire

On constate que le coefficient de détermination est égale à 0,80 donc 80% des points (départements) sont déterminés par la droite de régression,ainsi la statistique de Fisher est significative au seuil 5% donc on conclut que le modèle est significatif.

b).la sélection des variables avec STEP Aic Backward

Le modèle a sélectionné les variables significativement au seuil 5% suivantes: la proportion des résidences principales et secondaires,la proportion de la population agée de 15-29ans,45-59ans,60-74ans,le taux de chomage,la proportion des non scolarisées, non diplomées,des hommes salariés avec un contrat CDD,intérim,les femmes qui occupent la fonction publique,les gens qui travaillent dans les communes de résidence,meme région ou autre région de résidence.

Conclusion

Dans notre projet on a étudié les liens entre le taux d’abstention eux élections et les variables socio-économiques et nous avons déduit que la taux d’abstention est lié aux variables de type logements,tuax de chomage,la population jeune,les caractéristiques d’emploi par conséquent cette étude semble importante pour les candidats et leur partis dans le but de se focaliser leurs prochaines compagnes dans les lieus ou le taux d’abstention est significatif.

Réferences

Les élections législatives:https://www.data.gouv.fr/fr/datasets/elections-legislatives-1958-2012/.

Les élections régionales:https://www.data.gouv.fr/fr/datasets/elections-regionales-1986-2010/.

Les élections cantonales:https://www.data.gouv.fr/fr/datasets/elections-cantonales-1988-2011/.

Les données des indicateurs socio-économiques: https://www.insee.fr/fr/statistiques.

retour vers le Haut de page