Projet Données ouvertes : Données Parcoursup et APB - Application orIentAtion

Introduction et problématique

Pour ce projet de données ouvertes, nous avons choisi de travailler avec les données issues de APB de 2016 et 2017 et les données issues de Parcoursup de 2018 à 2021.

En effet, le gouvernement a mis en place la plateforme Parcoursup à l’issue du projet de loi “Orientation et réussite des étudiants” en 2018, visant à mettre fin au tirage au sort dans plusieurs formations sur l’application Admission Post-Bac (notamment STAPS). Parcoursup reprend la plupart des caractéristiques techniques de son prédécesseur APB, notamment le choix d’un nombre de vœux limités. Les candidats peuvent entrer 10 voeux contre 24 auparavant sur APB. Parcoursup ne demande plus à ce que les candidats hiérarchisent leurs voeux, et offre la possibilité de faire des voeux groupés (médecine, classes prépa, école d’ingénieurs), le total ne devant pas dépasser 20 « sous-voeux ». L’algorithme de Parcoursup laisse place à une analyse des candidatures par les établissements demandés, en fonction des notes, de l’avis du conseil de classe de terminale, du CV, de la lettre de motivation et de toute autre pièce demandée. Avec Parcoursup, même les candidats ayant une proposition d’affectation peuvent rester en attente d’une meilleure offre, alors qu’APB affectait automatiquement le candidat à son meilleur voeu.

Dans ce projet, nous allons donc dans un premier temps, regarder les taux d’admission par établissement et nous regarderons si il y a des profils types d’etablissements dans l’Académie de Bordeaux. Ensuite, nous ferons une comparaison des différentes académies. Nous avons décidé de créer une application Shiny afin de faciliter la visualition ainsi que le choix des filtres pour une analyse descriptive et la comparaison des données. L’application orIentAtion est disponible à l’adresse suivante : http://gregarts.shinyapps.io/orIentAtion

De plus, nous allons présenter dans ce rapport quelques techniques que nous avons utilisées mais que nous n’avons pas souhaité intégrer dans notre application, comme du clustering ou encore des tests d’hypothèse. Nous parlerons également des études que nous avons faites mais qui ne nous ont pas satisfaits.

A propos des données

L’ensemble des données utilisées dans ce projet est issu du Ministère de l’enseignement supérieur, de la recherche et de l’innovation. Elles sont accessibles à cette adresse : https://data.enseignementsup-recherche.gouv.fr/pages/home/

Nous avons, au total 5 tables :

  • La table \(\textit{APB_2016_2017_Bordeaux}\) composée de 752 individus et 37 variables dont les variables qualitatives sur la localisation des formations (Etablissement, Departement, Region, Academie), les noms des filières avec les variables Filiere_tres_agregee, Filiere, Filiere_tres_detaillee. Les variables quantitatives qui décrivent les effectifs des admis que nous pouvons retrouver dans ce jeu de données sont les suivantes : Total_candidat, Total_candidat_fille, Admis_boursier_neobachelier, Admis_neobachelier_sans_mention, Admis_neobachelier_mention_AB, Admis_neobachelier_mention_B, Admis_neobachelier_mention_TB, Admis_meme_academie.

  • Les quatre autres tables sont les tables issues de Parcoursup : \(\textit{Parc_2018_Bordeaux}\), \(\textit{Parc_2019_Bordeaux}\), \(\textit{Parc_2020_Bordeaux}\) et \(\textit{Parc_2021_Bordeaux}\) composées de (resp.) 469 individus et 85 variables, 511 individus et 92 variables, 551 individus et 115 variables, 581 individus et 118 variables. Nous allons ici décrire uniquement les variables que nous avons utilisées. En variables qualitatives, nous avons la localisation des formations (Etablissement, Departement, Region, Academie, Coordonnées_GPS), les noms des filières avec les variables Filiere_tres_agregee, Filiere, Filiere_detaillee, Filiere_tres_detaillee, Filiere_tres_detaillee1. qui sont les noms des fillières/formations plus ou moins détaillées. En variables quantitatives, nous avons Total_admis, Total_admises, Total_candidat, Total_candidates puis d’autres variables qui nous renseignent sur le profil académique des candidats (Admis_bac_general_mention, Admis_bac_techno_mention…) que nous n’utiliserons pas ici.

Les formations disponibles et leurs localisations

Dans un premier temps, nous avons cherché à déterminer le nombre de formations disponibles selon la plateforme et les lieux associés à celles-ci. Cela est représenté sur le premier onglet de l’application. Le but de cet onglet est de présenter le concept de l’application et de donner des informations générales sur l’Académie de Bordeaux. Ainsi, nous pouvons retrouver notamment le nombre de formations disponibles au sein de l’Académie selon la plateforme de voeux au fil des années. De plus, nous pouvons retrouver une carte intéractive représentant les lieux majeurs de l’Académie:

  • les plus grandes villes: Bordeaux, Périgueux, Agen, Dax, Pau, Bayonne

  • les lieux où sont dispensés les formations, avec notamment la ville, le nom de l’établissement et le nombre de formations disponibles dans celui-ci

Cette carte s’appuie principalement sur les informations contenues dans le jeu de données de Parcoursup datant de 2021, que ce soient les coordonnées géographiques des établissements, ou encore le nombre de formations associées aux différents établissements.

Statistiques descriptives sur les formations de l’Académie de Bordeaux

Maintenant que nous avons présenté le nombre de formations disponibles au fil des années et l’établissement associé à ces formations, nous allons présenter différentes statistiques descriptives portant sur les formations. Nous avons choisi de nous concentrer sur le taux d’admission moyen au sein de la formation, ainsi que le pourcentage de femmes parmi les admis au sein de celle-ci. Cela est représenté sur le second onglet de notre application. Toutes ces valeurs sont calculées pour les années disponibles dans nos données.

Dans le but d’avoir accès à diverses statistiques, nous avons mis en place des menus déroulants nous permettant de choisir la filière, l’établissement puis la formation au sein de cet établissement. Ainsi, nous pouvons étudier rapidement les taux d’admission selon la filière ou encore la parité au sein de ces différentes filières. Les possibilités de visualisation sont donc nombreuses, ce qui est intéressant pour nos analyses.

Comparaison des Académies

Afin de déterminer si l’Académie de Bordeaux propose des formations différentes, ou possède un nombre de candidats/admis différent des autres académies, il a été nécessaire de comparer celle-ci aux autres Académies.

Afin de réaliser cette comparaison, nous avons dû importer un nouveau jeu de données: \(\textit{Parc_nat_2021}\), contenant les informations associées à la session 2021 de Parcoursup. Ce jeu de données contient 13396 observations pour 118 variables. A la différence du jeu de données précédent concernant l’année 2021 pour l’Académie de Bordeaux, nous conservons une nouvelle variable correspondant à l’Académie associée à l’Etablissement. La comparaison effectuée porte uniquement sur l’année 2021.

Dans un premier temps, nous allons expliquer brièvement le contenu du \(3^{\text{ème}}\) onglet de notre application. Comme nous l’avons défini ci-dessus, le but est de comparer l’Académie de Bordeaux avec une seconde Académie, définie à l’aide d’un menu déroulant. Nous comparons nos académies sur deux points distincts: le nombre d’individus admis au sein de l’Académie, et le nombre de candidats au sein de la même Académie. Pour cela, nous réalisons une Analyse en Composantes Principales prenant en compte 3 variables:

  • La filière de formation: Licence, CPGE, DUT, etc. Cette variable sera une variable qualitative supplémentaire, que nous utiliserons pour la légende.

  • Le nombre de candidats (variable quantitative)

  • Le nombre total d’admis (variable quantitative)

Le but de ces comparaisons d’ACP est d’étudier si les filières sélectives le sont aussi dans d’autres académies, si il existe des filières qui admettent plus de candidats dans une autre Académie, etc.

Toutefois, il est nécessaire d’apporter une regard critique au travail effectué. Dans le but d’obtenir des résultats plus complets, nous avons essayé d’introduire de nouvelles variables dans notre ACP et nous avons essayé d’en tirer des conclusions. L’ensemble des ACP suivantes ont été réalisées pour l’Académie de Bordeaux. Cependant, les résultats étaient difficilement analysables.

Ces ACP utilisaient notamment 3 nouvelles variables:

  • le nombre d’admis dans la formation néo-bacheliers avec mention venant d’un bac général

  • le nombre d’admis dans la formation néo-bacheliers avec mention venant d’un bac technologique

  • le nombre d’admis dans la formation néo-bacheliers avec mention venant d’un bac professionel

Ainsi, la première ACP réalisée utilisait les variables suivantes:

  • La filière de la formation (variable qualitative supplémentaire)

  • Le nombre d’admis dans la formation

  • Les 3 variables définies ci-dessus

Le principal objectif de cette ACP est de déterminer l’impact de la mention sur le nombre d’admis en fonction de la filière. Nous obtenons ainsi les résultats suivants:

Ainsi, selon le graphique des variables, il semble se distinguer que la corrélation entre la première composante principale et le nombre d’admis est importante. De plus, il semble que la corrélation entre la seconde composante principale et les variables Mention_Pro et Mention_Tech est aussi importante. Ainsi, les formations ayant une composante principale positive auront tendance à avoir un nombre d’admis supérieur à la moyenne, tandis que les formations ayant une seconde composante principale positive auront tendance à avoir un nombre supérieur à la moyenne de personnes admises avec une mention au bac professionnel ou technologique. Ces différentes interprétations du graphique des variables semblent être aussi visibles sur le graphique des individus. En effet, nous pouvons voir que les formations ayant une deuxième composante principale assez grande sont principalement des BTS. Or, selon le graphique des variables, cela voudrait dire que ces formations sont principalement composées de néo-bacheliers ayant une mention au bac professionel, ce qui parait cohérent aussi. Nous pouvons tirer des conclusions similaires avec les BUT et les admissions de néo-bacheliers technologiques ayant une mention, en nous aidant du second graphique. Toutefois, il est difficile de tirer des informations concernant les candidatures, ou les admissions pour les autres filières, notamment au niveau de la proportion de mentions dans celles-ci. Concernant cette ACP, celle-ci permet de conserver une inertie importante, la plus importante des différents essais réalisés pour nos ACP.

La seconde ACP essayée utilise en plus la variable correspondant au nombre de candidats. Nous obtenons les résultats graphiques suivants.

Les résultats obtenus pour cette ACP sont très proches des résultats obtenus précédemment. Toutefois, elle possède les mêmes limites que l’ACP précédente et l’inertie de celle-ci est moins importante, ce qui signifie que le nuage de points obtenu conserve une quantité d’informations par rapport au jeu de données d’origine moins importante que celui obtenu précédemment.

Enfin, la dernière ACP que nous avons étudiée requiert une nouvelle variable correspondant au taux d’admission de la formation. Celui-ci est calculé en effectuant le rapport du nombre d’admis par rapport au nombre de candidats. Ainsi, cette ACP utilise les variables correspondant au nombre d’admis avec mention selon la filière et le taux d’admission de la formation (en conservant la filière en variable qualitative supplémentaire). Nous obtenons alors les graphiques suivants.

Dans le cas de cette ACP, il semble que les variables, mis à part le taux d’admission, sont moins bien projetées. Ainsi, nous pouvons voir que les formations sont réparties principalement autour de l’axe des ordonnées. Par conséquent, il est compliqué de tirer des informations des résultats obtenus. Les seules informations qui se dégagent concernent uniquement le taux d’admission, mais le nombre important de formations à l’origine nous empêche de tirer des informations précises dessus. De plus, l’inertie obtenue sur ce premier plan est bien plus faible que les autres (58% contre 75/80% précédemment).

Maintenant que nous avons présenté les différents onglets présents dans l’application, nous allons présenter les différentes méthodes statistiques que nous avons appliquées sur nos données, sans pour autant les mettre dans l’application.

Peut-on regrouper les établissements selon une formation ?

Dans cette partie, nous allons présenter un clustering sur les établissements. En effet, notre idée était de permettre de visualiser les établissements proches en terme de taux d’admission. Toutefois, les données n’étant pas toutes formatées de la même manière, certains résultats ne sont pas convenables et difficilement analysables.

Pour cela, nous avons appliqué l’algorithme de Ward sur les taux d’admission des établissements pour la formation sélectionnée, qui est ici une Classe Préparatoire aux Grandes Ecoles (MPSI).

Sur la formation MPSI en CPGE, nous pouvons observer le diagramme de Ward ci-dessus. Ceci nous permet de voir que les lycées Camille Jullian, Louis Barthou et Montaigne ont un taux d’admission relativement similaire et le lycée Sainte Marie Grand Lebrun semble avoir un taux d’admission différent des autres. Nous ne pouvons pas en dire plus grace à ce cluster.

Il serait intéressant de pouvoir intégrer un tel procédé statistique à notre application. En effet, celui-ci permettrait de pouvoir déterminer, parmi des filières et des formations identiques, quelles sont les établissements qui se rapprochent le plus d’un établissement choisi en termes de taux d’admission au sein de l’Académie.

Maintenant que nous avons étudié le comportement du clustering à l’échelle des formations, nous nous intéressons au clustering pour les académies.

Peut-on regrouper les académies selon le nombre de candidats et le nombre d’admis ?

Pour effectuer ce clustering, nous utilisons le jeu de données relatif à toutes les académies et non plus simplement à l’académie de Bordeaux, comme utilisé ci-dessus.

Cette fois-ci, nous allons utiliser l’algorithme des K-means pour voir quelles sont les académies qui ont des taux d’admission similaires. Pour ce clustering, nous choisissons de regarder la partition en 5 clusters avec les variables Nombre de candidats et Nombres d’admis.

Nous pouvons aisément remarquer que les académies situées en haut du graphique sont les plus grosses académies en terme de candidats (Paris, Lille, Versailles,…). Inversément, les académies en bas du graphique sont les académies les plus petites en terme de candidats (Etranger, Polynésie Francaise ou encore Guadeloupe). Les plus petites académies sont les collectivités et territoires d’outre-mer. Enfin, ce cluster nous permet de voir les profils similaires à une académie donnée. Par exemple, l’Académie de Bordeaux se rapproche de l’Académie de Rennes ou encore Marseille, en termes de nombre d’admis et de candidats.

Comparaison entre APB et Parcoursup

Dans un premier temps, nous allons comparer les admissions avec la plateforme APB et la plateforme Parcoursup. Nous effectuons cela afin d’avoir une première idée des comportements que nous obtiendrons par la suite, et ainsi obtenir des premières intuitions concernant les résultats des tests d’hypothèses.

Pour cela, nous allons nous intéresser au nombre de candidats admis en étude supérieure depuis 2016 dans l’académie de Bordeaux. Nous allons ajouter à cette partie l’évolution du pourcentage de femmes parmi les admis en étude supérieure.

Nous pouvons remarquer que, graphiquement, le nombre d’admis en étude supérieure a augmenté depuis l’ouverture de parcoursup en 2018. Toutefois, nous remarquons une légère baisse du nombre d’admis en 2021. Quant à l’évolution du pourcentage de femmes parmi les admis, nous pouvons voir que, graphiquement, l’évolution semble stable aux alentours de 52%. Nous allons vérifier cela en effectuant un test d’hypothèse.

Ici, nous allons faire un test de Student sur les coefficients d’une régression linéaire avec, comme variable à expliquer, le pourcentage d’admission et en variable explicative, une variable qui est égale à (1,2,3,4,5,6). A cela, nous faisons des tests de Student pour tester la nullité du coefficient de la variable explicative et la nullité de l’intercept. Nous regardons la pvaleur et si la pvaleur de l’intercept est significative (<0.05) et la pvaleur de notre variable explicative ne l’est pas, nous acceptons l’hypothèse nulle \(\mathcal{H}_0\) pour le premier test qui dit que le coefficient de notre variable significative est nul et l’intercept est non nul. Ainsi, le pourcentage de femmes parmi les admis est globalement constant.

## 
## Call:
## lm(formula = Adm_F ~ Var1, data = reg)
## 
## Residuals:
##        1        2        3        4        5        6 
##  0.19298 -0.21828 -0.52522  0.89878 -0.31367 -0.03459 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  53.3191     0.5242 101.719  5.6e-08 ***
## Var1          0.3590     0.1346   2.667    0.056 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5631 on 4 degrees of freedom
## Multiple R-squared:  0.6401, Adjusted R-squared:  0.5502 
## F-statistic: 7.115 on 1 and 4 DF,  p-value: 0.05596
## 
## [1] "Le coefficient de notre variable est nul et le pourcentage est constant en moyenne"

Nous effectuons les mêmes tests de Student avec le nombre d’admis pour vérifier que celui-ci n’est pas constant.

## 
## Call:
## lm(formula = Adm ~ Var1, data = reg)
## 
## Residuals:
##       1       2       3       4       5       6 
##  -159.9  -331.9  -167.0   755.0  1117.9 -1214.1 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  23346.8      865.5  26.974 1.12e-05 ***
## Var1          1173.1      222.2   5.278  0.00618 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 929.7 on 4 degrees of freedom
## Multiple R-squared:  0.8745, Adjusted R-squared:  0.8431 
## F-statistic: 27.86 on 1 and 4 DF,  p-value: 0.006177
## 
## [1] "Le coefficient de notre variable explicative est non nul et le nombre d'admis n'est pas constant en moyenne"

Ainsi, cela ne vient pas contredire les analyses graphiques que nous avons pu effectuer plus haut.

Conclusion

Ainsi, nous avons pu, au travers de l’application et des études complémentaires réalisées, comparer les admissions entre les plateformes APB et Parcoursup. Cela nous a notamment permis de conclure que le nombre de candidats admis avec Parcoursup était plus important qu’avec la plateforme APB. Toutefois, le taux d’admission dans l’Académie de Bordeaux semble chuter au fil des années. Nous pouvons expliquer cela par le nombre important de voeux réalisés par les candidats. Ainsi, les candidatures sont bien plus nombreuses qu’auparavant, pour un nombre de candidats globalement identiques, d’où les résultats des taux d’admission qui chutent.

Au cours de ce travail, nous avons rencontré certaines difficultés. La principale difficulté correspond à la nature des tables. En effet, le nombre de variables augmente chaque année, et les noms des variables évoluent fréquemment. Par conséquent, il a été nécessaire d’effectuer un nettoyage important des données et une sélection des variables afin d’obtenir des informations globalement similaires pour chaque table. De plus, la réalisation de l’application nous a apporté des difficultés techniques, notamment pour créer un rendu cohérent, clair et fournir un maximum d’informations au travers de celle-ci.