1 Introduction

En France, tous les ans, des centaines de milliers de candidats passent le baccalauréat, épreuve obligatoire pour tout étudiant souhaitant accéder aux études supérieures. Les différentes épreuves qu’il contient sont identiques pour tous et cela, quelque soit l’âge, l’origine sociale ou encore le lycée… Les inégalités entre les différents participants sont donc souvent remises en cause. Ce projet a pour but d’analyser et de visualiser différents jeux de données afin de déterminer si des facteurs socio-démographiques peuvent provoquer des différences de résultats quant à l’obtention du diplôme du baccalauréat. Nous commencerons ainsi par présenter rapidement les jeux de données nous ayant permis de réaliser notre étude

2 Les données

Le ministère de l’éducation nationale met à disposition de nombreux jeux de données sur les taux d’admis au baccalauréat général, technlogique ou professionnel en fonction de l’âge, de l’origine sociale et du lycée pour chaque année.

Dans un premier temps, nous avons récupéré un jeu de données sur la réussite au baccalauréat en fonction de l’âge disponible à l’adresse suivante:

https://data.education.gouv.fr/explore/dataset/fr-en-reussite-au-baccalaureat-age/api/?disjunctive.annee

et un autre sur la réussite au baccalauréat en fonction de l’origine sociale disponible à l’adresse suivante:

https://data.education.gouv.fr/explore/dataset/fr-en-reussite-au-baccalaureat-origine-sociale/table/?disjunctive.annee

Dans ces deux jeux de données, nous disposons du pourcentage et du nombre d’admis aux baccalauréats général, technologique et professionnel.

Dans un second temps, nous avons récupéré les résultats du bac en fonction des lycées. Un jeu de données correspondant à une année, nous avons pu obtenir ceux de 2008 à 2018 (les plus anciens n’étant pas disponibles) puis nous les avons aggrégés par ligne. Nous pouvons trouver ces données à l’adresse suivante:

https://www.education.gouv.fr/les-indicateurs-de-resultats-des-lycees-1118?fbclid=IwAR1VSx7VUqLtXWw4UaOP1WRJiVQl_IYQ-y00RhJLTAmcJYUPnZK9PxDkiAs

Enfin, nous avons utilisé des données de l’INSEE sur les revenus par département : https://www.insee.fr/fr/statistiques/3560118

3 Analyse descriptive des données

3.1 Taux d’admission sur les 20 dernières années

Nous avons donc commencé notre étude en faisant un peu d’analyse descriptive de nos données. Pour commencer, nous avons regardé l’évolution du taux de réussite au bac sur les 20 dernières années en fonction de la spécialité du bac (général, technologique ou professionnel).

On peut remarquer tout d’abord que le taux de réussite a augmenté pour les 3 spécialités sur les 20 dernières années. Cependant, la plus grosse augmentation de ce taux a été pour le bac général où celui-ci est passé de 75% à 90%. Enfin, les résultats pour la section professionnelle semblent être assez irréguliers selon les années contrairement au général et au technologique où l’on remarque une quasi-constante augmentation.

3.2 Taux d’amission en fonction de l’âge

Nous nous sommes intéressés ensuite au taux d’admission pour les bacs géneraux et technologiques en fonction de l’âge du candidat sur les 20 dernières années.

Premièrement, il nous semble important de préciser que le diplôme du bac est censé être obtenu à 17 ou 18 ans pour un élève n’ayant pas redoublé ou sauté d’année. On peut voir ainsi que le taux d’admission pour cette tranche d’âge tourne autour des 90% et ce taux peut même monter à plus de 97% pour les élèves de 16 ans ou moins, ce qui semble plutôt logique. On remarque également que le taux d’admission semble assez constant pour tous les âges. Enfin, on peut voir que plus l’âge est élevé, moins les résultats sont bons.

3.3 Taux d’admission en fonction de l’origine sociale

Nous avons ensuite regardé le taux d’admission en fonction de l’origine sociale des parents sur les 20 dernières années.

Tout d’abord, il apparaît sans surprise que les élèves dont l’origine sociale des parents est indéterminée ou sans activité professionelle sont ceux qui ont le taux de réussite le plus faible. Au contraire, les candidats venant d’un milieu de cadres ou de professeurs obtiennent les meilleurs résultats. On peut noter également que le taux d’admission a augmenté pour toutes les catégories sociales mais que les différences entre celles-ci restent les mêmes au fil des années.

3.4 Taux d’admission sur certaines grandes villes

Ensuite, nous avons voulu savoir s’il y avait une différence de résultats dans les villes suivantes : Lille, Lyon, Marseille, Bordeaux et Paris.

On peut donc voir ici que Paris est le meilleur élève de ces 5 villes depuis 2012 avec un taux de réussite avoisinant les 95% ces dernières années. On peut remarquer également que Paris, Lyon, Lille et Bordeaux obtiennent des résultats qui semblent assez similaires contrairement à Marseille. En effet, le taux d’admission là-bas est faible comparativement aux autres puisque celui-ci ne dépasse pas les 90 %. Nous regarderons par la suite si cette différence est significative.

3.5 Taux de réussite par département en 2008 et 2018

Nous avons essayé par la suite de réaliser des cartes interactives pour montrer une éventuelle évolution du taux d’admission dans les départements entre 2008 et 2018.

Sur cette carte de France, nous pouvons voir que le pourcentage de réussite au baccalauréat en 2008 varie beaucoup entre les départements. Par exemple, en Corse, le pourcentage de réussite avoisine les 80%. Cela est bien inférieur à la Gironde dont le pourcentage de réussite est compris entre 85% et 90%.

En 2018, nous ne constatons pas de grand changement par rapport à l’année 2008 hormis quelques exceptions comme la Corse qui est passé de 80% de réussite à plus de 92%.

3.6 Lien entre taux de réussite et revenu médian par département

Pour terminer cette partie, nous nous sommes attardés sur les revenus médians par département pour essayer de les mettre en relations, ou non, avec le taux d’admission.

D’après cette carte, nous pouvons voir que le revenu médian en 2015 ne varie pas autant que le pourcentage de réussite entre les départements à part pour l’Ile-de-France et la Haute-Savoie, ce dernier étant proche de la Suisse cela parait logique.

En regardant la carte du pourcentage de réussite au baccalauréat en 2015, nous ne constatons pas de lien fort entre les revenus médian et le pourcentage de réussite.

4 Statistique inférentielle

Dans cette partie, nous avons utilisé trois jeux de données afin de déterminer plus précisément le lien entre l’âge, l’origine sociale ou la localisation avec le taux d’admis au baccalauréat. Pour la localisation, nous avons pris un échantillon de notre jeu de données contenant les 5 grandes villes que nous avions regardé précédemment à savoir Bordeaux, Marseille, Paris, Lyon et Lille.

4.1 ACP

Dans un premier temps, nous avons décidé de faire des analyses en composantes principales afin de déterminer s’il y avait une certaine corrélation entre l’âge ou la commune avec le pourcentage d’admis au baccalauréat.

4.1.1 Lien Age/Taux de réussite

##        eigenvalue percentage of variance cumulative percentage of variance
## comp 1 3.30291212              66.058242                          66.05824
## comp 2 0.95627161              19.125432                          85.18367
## comp 3 0.45091111               9.018222                          94.20190
## comp 4 0.22741973               4.548395                          98.75029
## comp 5 0.06248543               1.249709                         100.00000

Pour cette première ACP, les deux premières variables ont un pourcentage de variance cumulé de 85 %. D’après les variances de chaque variables, il nous semble intéressant de se concentrer uniquement sur le premier plan factoriel.

Nous pouvons voir d’après le cercle de corrélation que l’âge est inversement proportionnel au pourcentage d’admis au baccalauréat, en particulier pour le baccalauréat général et le baccalauréat technologique car la projection de la variable âge forme un angle de 90° avec la variable du pourcentage d’admis au baccalauréat professionnel ainsi ces deux variables ne sont pas corrélées.

Nous avons ensuite regardé la projection des individus sur le premier plan factoriel. Nous avons classé les observations par âge. Ici, la variable âge a été recodée afin d’être utilisable. Ainsi, plus sa valeur est faible, plus l’individu sera jeune et plus la couleur de l’individu sera bleue. Nous pouvons donc constater que plus l’individu est jeune, plus il se trouve à droite du plan factoriel et donc plus son pourcentage de réussite au baccalauréat est élevé.

4.1.2 Lien Commune/Taux de réussite

Pour cette dernière ACP, nous avons voulu voir s’il y avait un lien entre les cinq communes choisies et le taux de réussite au baccalauréat. Nous avons de nouveau tracé l’éboulis des valeurs propres afin de déterminer le nombre d’axes à choisir.

##        eigenvalue percentage of variance cumulative percentage of variance
## comp 1  2.8530354              57.060708                          57.06071
## comp 2  1.0167659              20.335318                          77.39603
## comp 3  0.6029494              12.058988                          89.45501
## comp 4  0.3982344               7.964689                          97.41970
## comp 5  0.1290149               2.580298                         100.00000

Nous avons décidé de garder les 2 premiers axes afin d’avoir un pourcentage de variance cumulé de 77%.

D’après le cercle de corrélation les individus les plus en haut à droite sur le premier plan factoriel auront un taux et un nombre d’admis supérieur à la moyenne de notre échantillon. Quant au secteur, valant 1 pour les lycées privés et 2 pour les lycés publics. Plus un lycée sera en haut à gauche du premier plan factoriel, plus il y aura de chance que sa valeur soit égale à 2 et donc que ce soit un lycée publique.

D’après le graphique des individus, nous pouvons constater qu’il y a une différence de résultats entre le secteur privé et le secteur public. En effet, le taux d’admis au baccalauréat dans les lycées privés est en moyenne supérieur à celui dans les lycées publics car nous pouvons voir sur le graphique qu’une grande partie des lycées privés (en bleu) se trouve à droite du plan.

D’après le graphique des individus, nous pouvons dire qu’il n’y a pas de lien entre les cinq communes choisies et le taux d’admis au baccalauréat car, quelle que soit la commune, les individus sont éparpillés sur le plan.

Ainsi, d’après cette ACP, les communes de notre échantillon n’ont pas d’influence sur le pourcentage d’admission au baccalauréat. Le secteur quant à lui est un facteur non négligeable.

4.2 Test statistiques

Une fois les analyses en composantes principales terminées, nous nous sommes orientés vers des tests statistiques pour vérifier les hypothèses émises à partir de nos graphiques obtenus lors de notre analyse descriptive.

Tout d’abord, nous avons fait des tests statistiques en comparant les résultats obtenus en 1997 et les résultats obtenus en 2019 afin de voir s’il y avait eu un changement au niveau de l’influence des facteurs sur le taux de réussite puis nous avons refait les mêmes tests mais avec toutes les années réunies.

Nous avons testé quatres variables avec le taux de réussite au baccalauréat l’âge, l’origine sociale, la commune et le secteur comme nous avions eu des résultats intéressant lors de notre analyse en composantes principales.

4.2.1 En 1997

4.2.1.1 Lien Age/Taux d’admission

## 
##  Pearson's Chi-squared test
## 
## data:  age_bac$Age[age_bac$Année == "1997"] and age_bac$`Pourcentage d'admis au baccalauréat`[age_bac$Année == 
##     "1997"]
## X-squared = 132, df = 121, p-value = 0.2329
## 
##  Pearson's product-moment correlation
## 
## data:  age_bac$Age[age_bac$Année == "1997"] and age_bac$`Pourcentage d'admis au baccalauréat`[age_bac$Année == "1997"]
## t = -2.7215, df = 10, p-value = 0.0215
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.8922052 -0.1253293
## sample estimates:
##        cor 
## -0.6523123

D’après ce premier test du Chi-deux, l’hypothèse nulle correspondant au fait que l’âge n’était pas lié aux résultats en 1997 est vraie car la p-value est supérieure à 5%. Néanmoins, le calcul du coefficient de corrélation de Pearson nous indique que ces deux variables sont négativement corrélées et que cette corrélation est significative. Ainsi, plus un individu sera âgé, moins il aura de chance d’obtenir son baccalauréat. Cela confirme ce que nous avions remarqué sur le graphique.

4.2.1.2 Lien Origine sociale/Taux d’admission

## 
##  Pearson's Chi-squared test
## 
## data:  origine_bac$`Origine sociale`[age_bac$Année == "1997"] and origine_bac$`Pourcentage d'admis au baccalauréat`[age_bac$Année == 
##     "1997"]
## X-squared = 84, df = 77, p-value = 0.2739
## 
##  Pearson's product-moment correlation
## 
## data:  origine_bac$`Origine sociale`[age_bac$Année == "1997"] and origine_bac$`Pourcentage d'admis au baccalauréat`[age_bac$Année == "1997"]
## t = 0.69904, df = 10, p-value = 0.5005
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.4086815  0.7027005
## sample estimates:
##      cor 
## 0.215845

D’après ce deuxième test du Chi-deux, nous ne rejettons pas l’hypothèse nulle car, encore une fois, la p-value est trop élevée. De plus, le coefficient de corrélation nous montre que l’origine sociale était très peu corrélée avec le taux de réussite et cette corrélation n’est pas significative (p-valeur supérieure à 5%).

4.2.2 En 2019

4.2.2.1 Lien Age/Taux d’admission

## 
##  Pearson's Chi-squared test
## 
## data:  age_bac$Age[age_bac$Année == "2019"] and age_bac$`Pourcentage d'admis au baccalauréat`[age_bac$Année == 
##     "2019"]
## X-squared = 132, df = 121, p-value = 0.2329
## 
##  Pearson's product-moment correlation
## 
## data:  age_bac$Age[age_bac$Année == "2019"] and age_bac$`Pourcentage d'admis au baccalauréat`[age_bac$Année == "2019"]
## t = -1.6228, df = 10, p-value = 0.1357
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.8165225  0.1589889
## sample estimates:
##        cor 
## -0.4565722

Nous avons donc refait les mêmes tests pour l’année 2019 et nous avons obtenu les mêmes résultats : l’âge n’est pas lié au taux de réussite mais ces deux variables sont encore négativement corrélées mais cette fois-ci la corrélation n’est pas significative à 5%.

4.2.2.2 Lien Origine sociale/Taux d’admission

## 
##  Pearson's Chi-squared test
## 
## data:  origine_bac$`Origine sociale`[age_bac$Année == "2019"] and origine_bac$`Pourcentage d'admis au baccalauréat`[age_bac$Année == 
##     "2019"]
## X-squared = 96, df = 88, p-value = 0.2625
## 
##  Pearson's product-moment correlation
## 
## data:  origine_bac$`Origine sociale`[age_bac$Année == "2019"] and origine_bac$`Pourcentage d'admis au baccalauréat`[age_bac$Année == "2019"]
## t = 0.4721, df = 10, p-value = 0.647
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.4657121  0.6651879
## sample estimates:
##       cor 
## 0.1476533

Idem pour l’origine sociale qui n’est pas non plus lié au taux de réussite.

4.2.3 1997 à 2019

4.2.3.1 Lien Age/Taux d’admission

## 
##  Pearson's Chi-squared test
## 
## data:  age_bac$Age and age_bac$`Pourcentage d'admis au baccalauréat`
## X-squared = 2489.2, df = 2364, p-value = 0.03599
## 
##  Pearson's product-moment correlation
## 
## data:  age_bac$Age and age_bac$`Pourcentage d'admis au baccalauréat`
## t = -11.043, df = 274, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.6316627 -0.4675521
## sample estimates:
##        cor 
## -0.5549842

D’après ce test du Chi-deux, l’hypothèse nulle est rejettée car la p-value est inférieure à 5%. Ainsi, lorsque toutes les années sont réunies, l’âge est un facteur discriminant pour la réussite du baccalauréat ce qui contraste avec ce que nous avions trouvé pour les années 1997 et 2019.

4.2.3.2 Lien Origine sociale/Taux d’admission

## 
##  Pearson's Chi-squared test
## 
## data:  origine_bac$`Origine sociale` and origine_bac$`Pourcentage d'admis au baccalauréat`
## X-squared = 2298.2, df = 2054, p-value = 0.0001169
## 
##  Pearson's product-moment correlation
## 
## data:  origine_bac$`Origine sociale` and origine_bac$`Pourcentage d'admis au baccalauréat`
## t = -3.3904, df = 274, p-value = 0.0008007
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.31134699 -0.08458884
## sample estimates:
##       cor 
## -0.200654

D’après ce deuxième test du Chi-deux, l’origine sociale est statistiquement lié au pourcentage d’admis au baccalauréat car sa p-value est cette fois très faible.

Nos premiers résultats qui montraient que ces deux variables n’étaient pas corrélées étaient donc sûrement dus au fait que lorsque nous séparons nos données par année le nombre d’individus est trop faible. Donc les résultats ne sont pas très significatifs.

4.2.4 Test Marseille/Autres villes

Nous avions vu précédemment que la ville de Marseille avait obtenu des résultats moins bons que les villes de Bordeaux, Paris, Lille et Lyon. Nous avons donc décidé de faire un t-test de Welch sur les moyennes pour voir si cette différence était significative.

## 
##  Welch Two Sample t-test
## 
## data:  Villes$Pourcentage[Villes$COMMUNE_UAI == "MARSEILLE"] and Villes$Pourcentage[Villes$COMMUNE_UAI != "MARSEILLE"]
## t = -6.876, df = 17.483, p-value = 2.309e-06
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.06440381 -0.03420921
## sample estimates:
## mean of x mean of y 
## 0.8631941 0.9125006

On voit ici que la moyenne de taux d’admission à Marseille est de 0.86 contre 0.91 pour les autres villes. De plus, la p-valeur est très inférieure à 5% donc il y a bien une différence de résultat entre Marseille et les autres villes et cette différence est significative.

4.2.5 Test entre toutes les villes

Nous avons ensuite regroupé tous les lycées par leur ville et nous avons réalisé un test du chi-deux et un test de corrélation entre toutes ces villes pour savoir s’il y avit une différence de résultat.

## 
##  Pearson's Chi-squared test
## 
## data:  b18$COMMUNE_UAI and b18$Taux_GT
## X-squared = 128.36, df = 108, p-value = 0.08831
## 
##  Pearson's product-moment correlation
## 
## data:  b18$COMMUNE_UAI and b18$Taux_GT
## t = 1.4942, df = 242, p-value = 0.1364
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.03034078  0.21857075
## sample estimates:
##        cor 
## 0.09560935

On remarque cette fois-ci que les p-valeurs de nos deux tests sont supérieures à 5% donc on ne va pas rejetter l’hypothèse nulle et on peut donc en déduire que le taux d’admission est indépendant de la ville du candidat et que ces deux variables ne possèdent pas de corrélation significative.

4.2.6 Test par secteur

Rappelons déjà que ce que l’on appelle secteur est le fait que le lycée soit privé ou public. Nous avons également fait des tests d’indépendance et de corrélation sur cette variable par rapport au taux d’admission.

## 
##  Pearson's Chi-squared test
## 
## data:  b18$SECTEUR and b18$Taux_GT
## X-squared = 93.498, df = 27, p-value = 2.931e-09
## 
##  Pearson's product-moment correlation
## 
## data:  b18$SECTEUR and b18$Taux_GT
## t = -6.4033, df = 242, p-value = 7.839e-10
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.4831252 -0.2678519
## sample estimates:
##        cor 
## -0.3806338

Cette fois-ci, on peut voir que la p-valeur du test du chi-deux est très faible, tout comme celle du test de corrélation. Ainsi, le taux d’admission et le secteur sont très corrélés et on peut ajouter que le secteur est un facteur discriminant dans l’obtention du baccalauréat. De plus, en regardant les résultats, on s’aperçoit que les candidats provenant d’un lycée privé ont plus de chances d’obtention que les élèves du public.

4.2.7 Tests sur le revenu

Enfin, pour terminer notre étude, nous avons fait des tests sur le revenu médian par département. Par manque de données, nous n’avons pas pu faire de test d’indépendance avec le taux d’admission par département mais nous avons testé la corrélation entre ces deux variables avec des tests de Kendall et Pearson.

##    DEP somme_admis somme_present Pourcentage revenu$Q215
## 1   01        3601          3852   0.9348390    22020.48
## 2   02        2942          3278   0.8974985    18604.29
## 3   03        1771          1921   0.9219157    19313.33
## 4   04         972          1039   0.9355149    19498.10
## 5   05         842           898   0.9376392    19725.71
## 6   06        7188          7719   0.9312087    20987.60
## 7   07        1938          2075   0.9339759    19613.00
## 8   08        1421          1655   0.8586103    18541.18
## 9   09         808           909   0.8888889    18715.56
## 10  10        1766          1944   0.9084362    19481.00
## 11  11        2035          2217   0.9179071    18130.00
## 12  12        1515          1596   0.9492481    19565.00
## 13  13       12903         14417   0.8949851    20287.00
## 14  14        4580          4984   0.9189406    20276.19
## 15  15         651           694   0.9380403    19260.44
## 16  16        1911          2040   0.9367647    19627.33
## 17  17        3602          3889   0.9262021    20032.00
## 18  18        1547          1691   0.9148433    19772.00
## 19  19        1362          1446   0.9419087    19902.67
## 20  21        3535          3816   0.9263627    21223.75
## 21  22        3483          3753   0.9280576    20064.23
## 22  23         538           580   0.9275862    18354.40
## 23  24        2014          2219   0.9076160    19065.00
## 24  25        3369          3606   0.9342762    21324.67
## 25  26        3391          3604   0.9408990    19843.33
## 26  27        3433          3784   0.9072410    20554.29
## 27  28        2555          2829   0.9031460    20961.37
## 28  29        6060          6368   0.9516332    20481.00
## 29  2A         766           789   0.9708492    20072.67
## 30  2B         886           932   0.9506438    18530.43
## 31  30        4241          4637   0.9146000    18945.66
## 32  31        8795          9505   0.9253025    21989.00
## 33  32        1137          1186   0.9586847    19687.33
## 34  33        9682         10617   0.9119337    21072.78
## 35  34        6968          7646   0.9113262    19319.00
## 36  35        7957          8429   0.9440028    20926.00
## 37  36        1098          1229   0.8934093    19174.67
## 38  37        3865          4114   0.9394750    20710.22
## 39  38        8837          9425   0.9376127    21672.86
## 40  39        1547          1672   0.9252392    20534.29
## 41  40        2112          2261   0.9341000    20229.00
## 42  41        1832          1955   0.9370844    20328.67
## 43  42        4582          4952   0.9252827    19728.57
## 44  43        1371          1452   0.9442149    19604.00
## 45  44        9095          9545   0.9528549    21276.00
## 46  45        4622          4940   0.9356275    20921.33
## 47  46         932           994   0.9376258    19664.67
## 48  47        1888          2063   0.9151721    18917.33
## 49  48         489           511   0.9569472    19346.15
## 50  49        5065          5304   0.9549397    19941.20
## 51  50        2948          3165   0.9314376    19758.10
## 52  51        3618          3966   0.9122542    20549.05
## 53  52        1067          1162   0.9182444    19091.33
## 54  53        1833          1913   0.9581809    19686.67
## 55  54        4570          5007   0.9127222    20502.38
## 56  55        1055          1134   0.9303351    19453.33
## 57  56        4709          4962   0.9490125    20359.44
## 58  57        6576          7121   0.9234658    20498.00
## 59  58        1022          1119   0.9133155    19358.67
## 60  59       16862         18323   0.9202641    18920.00
## 61  60        5188          5750   0.9022609    20956.25
## 62  61        1515          1633   0.9277404    19060.00
## 63  62        8983          9833   0.9135564    18099.29
## 64  63        3575          3843   0.9302628    20812.86
## 65  64        4440          4656   0.9536082    20788.00
## 66  65        1412          1534   0.9204694    19522.50
## 67  66        2696          2988   0.9022758    18388.00
## 68  67        7358          7771   0.9468537    21512.42
## 69  68        4820          5167   0.9328430    21919.00
## 70  69       12886         13997   0.9206258    21746.19
## 71  70        1106          1175   0.9412766    19460.00
## 72  71        3090          3357   0.9204647    19736.67
## 73  72        3303          3542   0.9325240    19932.00
## 74  73        2768          2918   0.9485949    21802.00
## 75  74        5348          5647   0.9470515    25001.14
## 76  75       16896         17785   0.9500141    26430.90
## 77  76        8626          9446   0.9131908    20153.00
## 78  77       10405         11504   0.9044680    22338.67
## 79  78       12338         13046   0.9457305    25616.40
## 80  79        2126          2254   0.9432121    19676.35
## 81  80        3359          3807   0.8823220    19204.67
## 82  81        2339          2544   0.9194182    19365.33
## 83  82        1375          1544   0.8905440    19007.32
## 84  83        6163          6647   0.9271852    20507.33
## 85  84        3686          4047   0.9107981    18886.67
## 86  85        3978          4176   0.9525862    20073.00
## 87  86        2550          2783   0.9162774    19933.50
## 88  87        2118          2299   0.9212701    19953.33
## 89  88        2392          2567   0.9318270    19126.00
## 90  89        1828          2075   0.8809639    19807.78
## 91  90        1016          1129   0.8999114    20632.40
## 92  91        9899         10994   0.9004002    22978.00
## 93  92       11219         12074   0.9291867    26225.00
## 94  93        8763         10063   0.8708139    16761.50
## 95  94        8626          9361   0.9214827    21726.25
## 96  95        8863          9997   0.8865660    21001.00
## 
##  Pearson's product-moment correlation
## 
## data:  data$Pourcentage and revenu$Q215
## t = 2.8806, df = 94, p-value = 0.004916
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.08943144 0.45908286
## sample estimates:
##       cor 
## 0.2848108
## 
##  Kendall's rank correlation tau
## 
## data:  data$Pourcentage and revenu$Q215
## z = 2.5259, p-value = 0.01154
## alternative hypothesis: true tau is not equal to 0
## sample estimates:
##   tau 
## 0.175

Finalement, ces deux tests nous montrent que la corrélation entre nos deux variables est significative puisque la p-valeur est inférieure à 5% pour les deux tests. On peut également remarquer que le coefficient de corrélation est positif ce qui signifie que plus le revenu médian d’un département est élevé et plus ce département possède un bon taux d’admission au bac, ce qui semble assez logique.

5 Conclusion

Au cours de cette étude, nous avons donc essayé de mettre en évidence l’impact des facteurs socio-démographiques sur les résultats du baccalauréat de 1997 à 2019. Pour ce faire, nous avons réalisé plusieurs tests statistiques et des analyses en compasantes principales. Finalement, il nous est apparu que le taux d’admission est bien conditionné par plusieurs facteurs à savoir l’âge, l’origine sociale ou encore le secteur du lycée (public ou privé). Nous aurions aimé avoir accès à plus de données sur les résultats que ce soit sur la durée ou avec d’autres variables afin de pouvoir réaliser une étude plus poussée, mais le site de l’éducation nationale ne les fournissait pas.