En France, tous les ans, des centaines de milliers de candidats passent le baccalauréat, épreuve obligatoire pour tout étudiant souhaitant accéder aux études supérieures. Les différentes épreuves qu’il contient sont identiques pour tous et cela, quelque soit l’âge, l’origine sociale ou encore le lycée… Les inégalités entre les différents participants sont donc souvent remises en cause. Ce projet a pour but d’analyser et de visualiser différents jeux de données afin de déterminer si des facteurs socio-démographiques peuvent provoquer des différences de résultats quant à l’obtention du diplôme du baccalauréat. Nous commencerons ainsi par présenter rapidement les jeux de données nous ayant permis de réaliser notre étude
Le ministère de l’éducation nationale met à disposition de nombreux jeux de données sur les taux d’admis au baccalauréat général, technlogique ou professionnel en fonction de l’âge, de l’origine sociale et du lycée pour chaque année.
Dans un premier temps, nous avons récupéré un jeu de données sur la réussite au baccalauréat en fonction de l’âge disponible à l’adresse suivante:
et un autre sur la réussite au baccalauréat en fonction de l’origine sociale disponible à l’adresse suivante:
Dans ces deux jeux de données, nous disposons du pourcentage et du nombre d’admis aux baccalauréats général, technologique et professionnel.
Dans un second temps, nous avons récupéré les résultats du bac en fonction des lycées. Un jeu de données correspondant à une année, nous avons pu obtenir ceux de 2008 à 2018 (les plus anciens n’étant pas disponibles) puis nous les avons aggrégés par ligne. Nous pouvons trouver ces données à l’adresse suivante:
Enfin, nous avons utilisé des données de l’INSEE sur les revenus par département : https://www.insee.fr/fr/statistiques/3560118
Nous avons donc commencé notre étude en faisant un peu d’analyse descriptive de nos données. Pour commencer, nous avons regardé l’évolution du taux de réussite au bac sur les 20 dernières années en fonction de la spécialité du bac (général, technologique ou professionnel).
On peut remarquer tout d’abord que le taux de réussite a augmenté pour les 3 spécialités sur les 20 dernières années. Cependant, la plus grosse augmentation de ce taux a été pour le bac général où celui-ci est passé de 75% à 90%. Enfin, les résultats pour la section professionnelle semblent être assez irréguliers selon les années contrairement au général et au technologique où l’on remarque une quasi-constante augmentation.
Nous nous sommes intéressés ensuite au taux d’admission pour les bacs géneraux et technologiques en fonction de l’âge du candidat sur les 20 dernières années.
Premièrement, il nous semble important de préciser que le diplôme du bac est censé être obtenu à 17 ou 18 ans pour un élève n’ayant pas redoublé ou sauté d’année. On peut voir ainsi que le taux d’admission pour cette tranche d’âge tourne autour des 90% et ce taux peut même monter à plus de 97% pour les élèves de 16 ans ou moins, ce qui semble plutôt logique. On remarque également que le taux d’admission semble assez constant pour tous les âges. Enfin, on peut voir que plus l’âge est élevé, moins les résultats sont bons.
Ensuite, nous avons voulu savoir s’il y avait une différence de résultats dans les villes suivantes : Lille, Lyon, Marseille, Bordeaux et Paris.
On peut donc voir ici que Paris est le meilleur élève de ces 5 villes depuis 2012 avec un taux de réussite avoisinant les 95% ces dernières années. On peut remarquer également que Paris, Lyon, Lille et Bordeaux obtiennent des résultats qui semblent assez similaires contrairement à Marseille. En effet, le taux d’admission là-bas est faible comparativement aux autres puisque celui-ci ne dépasse pas les 90 %. Nous regarderons par la suite si cette différence est significative.
Nous avons essayé par la suite de réaliser des cartes interactives pour montrer une éventuelle évolution du taux d’admission dans les départements entre 2008 et 2018.
Sur cette carte de France, nous pouvons voir que le pourcentage de réussite au baccalauréat en 2008 varie beaucoup entre les départements. Par exemple, en Corse, le pourcentage de réussite avoisine les 80%. Cela est bien inférieur à la Gironde dont le pourcentage de réussite est compris entre 85% et 90%.
En 2018, nous ne constatons pas de grand changement par rapport à l’année 2008 hormis quelques exceptions comme la Corse qui est passé de 80% de réussite à plus de 92%.
Pour terminer cette partie, nous nous sommes attardés sur les revenus médians par département pour essayer de les mettre en relations, ou non, avec le taux d’admission.
D’après cette carte, nous pouvons voir que le revenu médian en 2015 ne varie pas autant que le pourcentage de réussite entre les départements à part pour l’Ile-de-France et la Haute-Savoie, ce dernier étant proche de la Suisse cela parait logique.
En regardant la carte du pourcentage de réussite au baccalauréat en 2015, nous ne constatons pas de lien fort entre les revenus médian et le pourcentage de réussite.
Dans cette partie, nous avons utilisé trois jeux de données afin de déterminer plus précisément le lien entre l’âge, l’origine sociale ou la localisation avec le taux d’admis au baccalauréat. Pour la localisation, nous avons pris un échantillon de notre jeu de données contenant les 5 grandes villes que nous avions regardé précédemment à savoir Bordeaux, Marseille, Paris, Lyon et Lille.
Dans un premier temps, nous avons décidé de faire des analyses en composantes principales afin de déterminer s’il y avait une certaine corrélation entre l’âge ou la commune avec le pourcentage d’admis au baccalauréat.
## eigenvalue percentage of variance cumulative percentage of variance
## comp 1 3.30291212 66.058242 66.05824
## comp 2 0.95627161 19.125432 85.18367
## comp 3 0.45091111 9.018222 94.20190
## comp 4 0.22741973 4.548395 98.75029
## comp 5 0.06248543 1.249709 100.00000
Pour cette première ACP, les deux premières variables ont un pourcentage de variance cumulé de 85 %. D’après les variances de chaque variables, il nous semble intéressant de se concentrer uniquement sur le premier plan factoriel.
Nous pouvons voir d’après le cercle de corrélation que l’âge est inversement proportionnel au pourcentage d’admis au baccalauréat, en particulier pour le baccalauréat général et le baccalauréat technologique car la projection de la variable âge forme un angle de 90° avec la variable du pourcentage d’admis au baccalauréat professionnel ainsi ces deux variables ne sont pas corrélées.
Nous avons ensuite regardé la projection des individus sur le premier plan factoriel. Nous avons classé les observations par âge. Ici, la variable âge a été recodée afin d’être utilisable. Ainsi, plus sa valeur est faible, plus l’individu sera jeune et plus la couleur de l’individu sera bleue. Nous pouvons donc constater que plus l’individu est jeune, plus il se trouve à droite du plan factoriel et donc plus son pourcentage de réussite au baccalauréat est élevé.
Pour cette dernière ACP, nous avons voulu voir s’il y avait un lien entre les cinq communes choisies et le taux de réussite au baccalauréat. Nous avons de nouveau tracé l’éboulis des valeurs propres afin de déterminer le nombre d’axes à choisir.
## eigenvalue percentage of variance cumulative percentage of variance
## comp 1 2.8530354 57.060708 57.06071
## comp 2 1.0167659 20.335318 77.39603
## comp 3 0.6029494 12.058988 89.45501
## comp 4 0.3982344 7.964689 97.41970
## comp 5 0.1290149 2.580298 100.00000
Nous avons décidé de garder les 2 premiers axes afin d’avoir un pourcentage de variance cumulé de 77%.
D’après le cercle de corrélation les individus les plus en haut à droite sur le premier plan factoriel auront un taux et un nombre d’admis supérieur à la moyenne de notre échantillon. Quant au secteur, valant 1 pour les lycées privés et 2 pour les lycés publics. Plus un lycée sera en haut à gauche du premier plan factoriel, plus il y aura de chance que sa valeur soit égale à 2 et donc que ce soit un lycée publique.
D’après le graphique des individus, nous pouvons constater qu’il y a une différence de résultats entre le secteur privé et le secteur public. En effet, le taux d’admis au baccalauréat dans les lycées privés est en moyenne supérieur à celui dans les lycées publics car nous pouvons voir sur le graphique qu’une grande partie des lycées privés (en bleu) se trouve à droite du plan.
D’après le graphique des individus, nous pouvons dire qu’il n’y a pas de lien entre les cinq communes choisies et le taux d’admis au baccalauréat car, quelle que soit la commune, les individus sont éparpillés sur le plan.
Ainsi, d’après cette ACP, les communes de notre échantillon n’ont pas d’influence sur le pourcentage d’admission au baccalauréat. Le secteur quant à lui est un facteur non négligeable.
Une fois les analyses en composantes principales terminées, nous nous sommes orientés vers des tests statistiques pour vérifier les hypothèses émises à partir de nos graphiques obtenus lors de notre analyse descriptive.
Tout d’abord, nous avons fait des tests statistiques en comparant les résultats obtenus en 1997 et les résultats obtenus en 2019 afin de voir s’il y avait eu un changement au niveau de l’influence des facteurs sur le taux de réussite puis nous avons refait les mêmes tests mais avec toutes les années réunies.
Nous avons testé quatres variables avec le taux de réussite au baccalauréat l’âge, l’origine sociale, la commune et le secteur comme nous avions eu des résultats intéressant lors de notre analyse en composantes principales.
##
## Pearson's Chi-squared test
##
## data: age_bac$Age[age_bac$Année == "1997"] and age_bac$`Pourcentage d'admis au baccalauréat`[age_bac$Année ==
## "1997"]
## X-squared = 132, df = 121, p-value = 0.2329
##
## Pearson's product-moment correlation
##
## data: age_bac$Age[age_bac$Année == "1997"] and age_bac$`Pourcentage d'admis au baccalauréat`[age_bac$Année == "1997"]
## t = -2.7215, df = 10, p-value = 0.0215
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.8922052 -0.1253293
## sample estimates:
## cor
## -0.6523123
D’après ce premier test du Chi-deux, l’hypothèse nulle correspondant au fait que l’âge n’était pas lié aux résultats en 1997 est vraie car la p-value est supérieure à 5%. Néanmoins, le calcul du coefficient de corrélation de Pearson nous indique que ces deux variables sont négativement corrélées et que cette corrélation est significative. Ainsi, plus un individu sera âgé, moins il aura de chance d’obtenir son baccalauréat. Cela confirme ce que nous avions remarqué sur le graphique.
##
## Pearson's Chi-squared test
##
## data: age_bac$Age[age_bac$Année == "2019"] and age_bac$`Pourcentage d'admis au baccalauréat`[age_bac$Année ==
## "2019"]
## X-squared = 132, df = 121, p-value = 0.2329
##
## Pearson's product-moment correlation
##
## data: age_bac$Age[age_bac$Année == "2019"] and age_bac$`Pourcentage d'admis au baccalauréat`[age_bac$Année == "2019"]
## t = -1.6228, df = 10, p-value = 0.1357
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.8165225 0.1589889
## sample estimates:
## cor
## -0.4565722
Nous avons donc refait les mêmes tests pour l’année 2019 et nous avons obtenu les mêmes résultats : l’âge n’est pas lié au taux de réussite mais ces deux variables sont encore négativement corrélées mais cette fois-ci la corrélation n’est pas significative à 5%.
##
## Pearson's Chi-squared test
##
## data: age_bac$Age and age_bac$`Pourcentage d'admis au baccalauréat`
## X-squared = 2489.2, df = 2364, p-value = 0.03599
##
## Pearson's product-moment correlation
##
## data: age_bac$Age and age_bac$`Pourcentage d'admis au baccalauréat`
## t = -11.043, df = 274, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.6316627 -0.4675521
## sample estimates:
## cor
## -0.5549842
D’après ce test du Chi-deux, l’hypothèse nulle est rejettée car la p-value est inférieure à 5%. Ainsi, lorsque toutes les années sont réunies, l’âge est un facteur discriminant pour la réussite du baccalauréat ce qui contraste avec ce que nous avions trouvé pour les années 1997 et 2019.
Nous avions vu précédemment que la ville de Marseille avait obtenu des résultats moins bons que les villes de Bordeaux, Paris, Lille et Lyon. Nous avons donc décidé de faire un t-test de Welch sur les moyennes pour voir si cette différence était significative.
##
## Welch Two Sample t-test
##
## data: Villes$Pourcentage[Villes$COMMUNE_UAI == "MARSEILLE"] and Villes$Pourcentage[Villes$COMMUNE_UAI != "MARSEILLE"]
## t = -6.876, df = 17.483, p-value = 2.309e-06
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.06440381 -0.03420921
## sample estimates:
## mean of x mean of y
## 0.8631941 0.9125006
On voit ici que la moyenne de taux d’admission à Marseille est de 0.86 contre 0.91 pour les autres villes. De plus, la p-valeur est très inférieure à 5% donc il y a bien une différence de résultat entre Marseille et les autres villes et cette différence est significative.
Nous avons ensuite regroupé tous les lycées par leur ville et nous avons réalisé un test du chi-deux et un test de corrélation entre toutes ces villes pour savoir s’il y avit une différence de résultat.
##
## Pearson's Chi-squared test
##
## data: b18$COMMUNE_UAI and b18$Taux_GT
## X-squared = 128.36, df = 108, p-value = 0.08831
##
## Pearson's product-moment correlation
##
## data: b18$COMMUNE_UAI and b18$Taux_GT
## t = 1.4942, df = 242, p-value = 0.1364
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.03034078 0.21857075
## sample estimates:
## cor
## 0.09560935
On remarque cette fois-ci que les p-valeurs de nos deux tests sont supérieures à 5% donc on ne va pas rejetter l’hypothèse nulle et on peut donc en déduire que le taux d’admission est indépendant de la ville du candidat et que ces deux variables ne possèdent pas de corrélation significative.
Rappelons déjà que ce que l’on appelle secteur est le fait que le lycée soit privé ou public. Nous avons également fait des tests d’indépendance et de corrélation sur cette variable par rapport au taux d’admission.
##
## Pearson's Chi-squared test
##
## data: b18$SECTEUR and b18$Taux_GT
## X-squared = 93.498, df = 27, p-value = 2.931e-09
##
## Pearson's product-moment correlation
##
## data: b18$SECTEUR and b18$Taux_GT
## t = -6.4033, df = 242, p-value = 7.839e-10
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.4831252 -0.2678519
## sample estimates:
## cor
## -0.3806338
Cette fois-ci, on peut voir que la p-valeur du test du chi-deux est très faible, tout comme celle du test de corrélation. Ainsi, le taux d’admission et le secteur sont très corrélés et on peut ajouter que le secteur est un facteur discriminant dans l’obtention du baccalauréat. De plus, en regardant les résultats, on s’aperçoit que les candidats provenant d’un lycée privé ont plus de chances d’obtention que les élèves du public.
Enfin, pour terminer notre étude, nous avons fait des tests sur le revenu médian par département. Par manque de données, nous n’avons pas pu faire de test d’indépendance avec le taux d’admission par département mais nous avons testé la corrélation entre ces deux variables avec des tests de Kendall et Pearson.
## DEP somme_admis somme_present Pourcentage revenu$Q215
## 1 01 3601 3852 0.9348390 22020.48
## 2 02 2942 3278 0.8974985 18604.29
## 3 03 1771 1921 0.9219157 19313.33
## 4 04 972 1039 0.9355149 19498.10
## 5 05 842 898 0.9376392 19725.71
## 6 06 7188 7719 0.9312087 20987.60
## 7 07 1938 2075 0.9339759 19613.00
## 8 08 1421 1655 0.8586103 18541.18
## 9 09 808 909 0.8888889 18715.56
## 10 10 1766 1944 0.9084362 19481.00
## 11 11 2035 2217 0.9179071 18130.00
## 12 12 1515 1596 0.9492481 19565.00
## 13 13 12903 14417 0.8949851 20287.00
## 14 14 4580 4984 0.9189406 20276.19
## 15 15 651 694 0.9380403 19260.44
## 16 16 1911 2040 0.9367647 19627.33
## 17 17 3602 3889 0.9262021 20032.00
## 18 18 1547 1691 0.9148433 19772.00
## 19 19 1362 1446 0.9419087 19902.67
## 20 21 3535 3816 0.9263627 21223.75
## 21 22 3483 3753 0.9280576 20064.23
## 22 23 538 580 0.9275862 18354.40
## 23 24 2014 2219 0.9076160 19065.00
## 24 25 3369 3606 0.9342762 21324.67
## 25 26 3391 3604 0.9408990 19843.33
## 26 27 3433 3784 0.9072410 20554.29
## 27 28 2555 2829 0.9031460 20961.37
## 28 29 6060 6368 0.9516332 20481.00
## 29 2A 766 789 0.9708492 20072.67
## 30 2B 886 932 0.9506438 18530.43
## 31 30 4241 4637 0.9146000 18945.66
## 32 31 8795 9505 0.9253025 21989.00
## 33 32 1137 1186 0.9586847 19687.33
## 34 33 9682 10617 0.9119337 21072.78
## 35 34 6968 7646 0.9113262 19319.00
## 36 35 7957 8429 0.9440028 20926.00
## 37 36 1098 1229 0.8934093 19174.67
## 38 37 3865 4114 0.9394750 20710.22
## 39 38 8837 9425 0.9376127 21672.86
## 40 39 1547 1672 0.9252392 20534.29
## 41 40 2112 2261 0.9341000 20229.00
## 42 41 1832 1955 0.9370844 20328.67
## 43 42 4582 4952 0.9252827 19728.57
## 44 43 1371 1452 0.9442149 19604.00
## 45 44 9095 9545 0.9528549 21276.00
## 46 45 4622 4940 0.9356275 20921.33
## 47 46 932 994 0.9376258 19664.67
## 48 47 1888 2063 0.9151721 18917.33
## 49 48 489 511 0.9569472 19346.15
## 50 49 5065 5304 0.9549397 19941.20
## 51 50 2948 3165 0.9314376 19758.10
## 52 51 3618 3966 0.9122542 20549.05
## 53 52 1067 1162 0.9182444 19091.33
## 54 53 1833 1913 0.9581809 19686.67
## 55 54 4570 5007 0.9127222 20502.38
## 56 55 1055 1134 0.9303351 19453.33
## 57 56 4709 4962 0.9490125 20359.44
## 58 57 6576 7121 0.9234658 20498.00
## 59 58 1022 1119 0.9133155 19358.67
## 60 59 16862 18323 0.9202641 18920.00
## 61 60 5188 5750 0.9022609 20956.25
## 62 61 1515 1633 0.9277404 19060.00
## 63 62 8983 9833 0.9135564 18099.29
## 64 63 3575 3843 0.9302628 20812.86
## 65 64 4440 4656 0.9536082 20788.00
## 66 65 1412 1534 0.9204694 19522.50
## 67 66 2696 2988 0.9022758 18388.00
## 68 67 7358 7771 0.9468537 21512.42
## 69 68 4820 5167 0.9328430 21919.00
## 70 69 12886 13997 0.9206258 21746.19
## 71 70 1106 1175 0.9412766 19460.00
## 72 71 3090 3357 0.9204647 19736.67
## 73 72 3303 3542 0.9325240 19932.00
## 74 73 2768 2918 0.9485949 21802.00
## 75 74 5348 5647 0.9470515 25001.14
## 76 75 16896 17785 0.9500141 26430.90
## 77 76 8626 9446 0.9131908 20153.00
## 78 77 10405 11504 0.9044680 22338.67
## 79 78 12338 13046 0.9457305 25616.40
## 80 79 2126 2254 0.9432121 19676.35
## 81 80 3359 3807 0.8823220 19204.67
## 82 81 2339 2544 0.9194182 19365.33
## 83 82 1375 1544 0.8905440 19007.32
## 84 83 6163 6647 0.9271852 20507.33
## 85 84 3686 4047 0.9107981 18886.67
## 86 85 3978 4176 0.9525862 20073.00
## 87 86 2550 2783 0.9162774 19933.50
## 88 87 2118 2299 0.9212701 19953.33
## 89 88 2392 2567 0.9318270 19126.00
## 90 89 1828 2075 0.8809639 19807.78
## 91 90 1016 1129 0.8999114 20632.40
## 92 91 9899 10994 0.9004002 22978.00
## 93 92 11219 12074 0.9291867 26225.00
## 94 93 8763 10063 0.8708139 16761.50
## 95 94 8626 9361 0.9214827 21726.25
## 96 95 8863 9997 0.8865660 21001.00
##
## Pearson's product-moment correlation
##
## data: data$Pourcentage and revenu$Q215
## t = 2.8806, df = 94, p-value = 0.004916
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.08943144 0.45908286
## sample estimates:
## cor
## 0.2848108
##
## Kendall's rank correlation tau
##
## data: data$Pourcentage and revenu$Q215
## z = 2.5259, p-value = 0.01154
## alternative hypothesis: true tau is not equal to 0
## sample estimates:
## tau
## 0.175
Finalement, ces deux tests nous montrent que la corrélation entre nos deux variables est significative puisque la p-valeur est inférieure à 5% pour les deux tests. On peut également remarquer que le coefficient de corrélation est positif ce qui signifie que plus le revenu médian d’un département est élevé et plus ce département possède un bon taux d’admission au bac, ce qui semble assez logique.
Au cours de cette étude, nous avons donc essayé de mettre en évidence l’impact des facteurs socio-démographiques sur les résultats du baccalauréat de 1997 à 2019. Pour ce faire, nous avons réalisé plusieurs tests statistiques et des analyses en compasantes principales. Finalement, il nous est apparu que le taux d’admission est bien conditionné par plusieurs facteurs à savoir l’âge, l’origine sociale ou encore le secteur du lycée (public ou privé). Nous aurions aimé avoir accès à plus de données sur les résultats que ce soit sur la durée ou avec d’autres variables afin de pouvoir réaliser une étude plus poussée, mais le site de l’éducation nationale ne les fournissait pas.