Tribunaux de Commerce : Étude des immatriculations et radiations des entreprises en France sur la période 2016-2019.

Jean-Francis KALUME, Mohamed-Harith IBRAHIM, Kenza HARIFI, Marceau BILLON

Introduction

L'entrepreunariat représente un enjeu majeur en France. Ces dernières années, le nombre d'entreprises créées a atteint ses plus hauts niveaux notamment grâce à l'apparition de nouveaux régimes et l'essor de secteurs d'activités prometteurs. C'est dans ce contexte que l'accompagnement des futurs entrepreneurs par la data science est un point crucial.

Comment savoir si son entreprise à une chance de survivre avant même de l'avoir créée ? Est-il possible d'établir une stratégie lors des phases administratives afin d'augmenter les chances de prospérité de son entreprise ? Quels sont les facteurs qui participent à la pérennité des entreprises en France?

Dans ce rapport nous allons répondre à ces questions tout en suivant une démarche de gestion d'un projet de science des données.

Nous avons choisi une méthodologie de travail appelée CRISP-DM qui signifie Cross Industry Standard Process for Data Mining préconnisée par IBM pour une meilleure conduite des projets de data science.

Le modèle de cycle de vie comporte six phases dotées de flèches indiquant les dépendances les plus importantes et les plus fréquentes entre les phases. La séquence des phases n’est pas strictement établie. De ce fait, les projets, pour la plupart, passent d’une phase à l’autre en fonction des besoins.

Les six phases sont les suivantes :

  1. Compréhension métier
  2. Compréhension des données
  3. Préparation des données
  4. Analyse des données
  5. Modélisation
  6. Evaluation
  7. Déploiement

Le projet s'est déroulé en plusieurs phases. D'abord une phase dont l'objectif était l'acquisition, la compréhension et l'analyse des données à disposition. Ensuite, nous nous sommes interessés à la prédiction du nombre d'entreprises créées et radiées jusqu'à fin 2020 et pour finir, nous avons implémenté plusieurs modèles d'apprentissage automatique pour la classification et le calcul du pourcentage de pérennité d'une entreprise à partir de ses caractéristiques pour ensuite développer une application d'aide à la décision pour les futurs entrepreneurs.

Acquisition et compréhension des données :

Dans un premier temps, nous avons téléchargé les données sur : https://opendata.datainfogreffe.fr/explore/?sort=modified.

Ce site réfère toutes les entreprises immatriculées et radiées. On dit qu'une entreprise est immatriculée si un numéro d'identification a été donné à son fondateur par un registre du commerce et des sociétés. Tous ces numéros sont centralisés dans le Registre National du Commerce et des Sociétés.

À l'inverse, une entreprise radiée par un tribunal de commerce ne figurera plus dans ce registre. Une entreprise peut se faire radier pour plusieurs raisons telles que la fusion avec une autre entité ou une cessation d'activité.

En ce qui nous concerne, nous nous sommes focalisés sur les immatriculations et les radiations d'entreprises, sur la période 2016-2019 en France.

    Nom des variables du jeu de données immatriculation : Index(['Dénomination', 'Forme Juridique', 'Secteur d'activité', 'Adresse',
       'Ville', 'Département', 'Région', 'Date immatriculation',
       'Geolocalisation', 'Année', 'latitude', 'longitude'],
      dtype='object')
    Nom des variables du jeu de données radiation : Index(['Dénomination', 'Forme Juridique', 'Secteur d'activité', 'Adresse',
       'Ville', 'Département', 'Région', 'Date radiation', 'Geolocalisation',
       'Année', 'latitude', 'longitude'],
      dtype='object')

Nous disposons de deux jeux de données df_imm et df_rad contenant respectivement toutes les entreprises immatriculées et radiées entre 2016 et 2019.

Chaque entreprise est caractérisée par les variables suivantes:

  • Dénomination : Nom de l'entreprise
  • Forme Juridique
  • Secteur d'activité
  • Adresse
  • Ville
  • Département
  • Région
  • Date d'immatriculation (df_imm)
  • Date de radiation (df_rad)
  • Géolocalisation
  • Fiche d'identité
  • Année

Préparation des données :

Le prétraitement et le nettoyage de données sont des tâches importantes qui doivent intervenir avant d’utiliser un jeu de données à des fins d’apprentissage automatique. Les données brutes sont souvent bruyantes, peu fiables et incomplètes. Leur utilisation pour la modélisation peut générer des résultats trompeurs.

Ci-dessous les étapes de préparation des données :

  • Traitement de valeurs manquantes : Pour ce qui est du traitement des données manquantes, nous avons procédé à la suppression des lignes contenant des valeurs manquantes "NaN" car le nombre d'observations concernées était négligeable.
  • Doublons : Nous avons également supprimé le peu de doublons présents dans les jeux de données.
  • Extraction des variables significatives et ajout de nouvelles variables : La majorité des variables qui nous intéressent sont de type qualitatif. Nous avons ajouté les variables "latitude" et "longitude".
   Nous avons 597216 entreprises créées entre 2016 et 2019 en France.
   Nous avons 461663 entreprises radiées entre 2016 et 2019 en France.
 
   Nous avons 12 variables pour les deux jeux de données.

Nous allons maintenant comparer le nombre d'entreprises créées et radiées chaque année de 2016 à 2019.

D'après les graphiques ci-dessus, nous constatons que l'année 2016 détient le plus grand nombre d'entreprises créées et l'année 2019 posséde le plus grand nombre de radiation comparé aux années précédentes.

Toutefois, aucune année n'a connu une explosion de création ou radiation d'entreprises ou à l'inverse, une absence remarquée.

Analyse descriptive des données :

Dans cette partie, nous allons faire l'analyse descriptive des entreprises immatriculées et radiées en France de 2016 jusqu'à la fin de 2019.

Pour cela, nous effectuerons des analyses par région, département, ville, forme juridique et secteur d'activité dans le cas immatriculé et radié.

Immatriculation des entreprises :

Répartition des immatriculations par région entre 2016 et 2019

Dans cette partie, nous nous sommes intéressés à l'évolution de la répartition des immatriculations par régions entre les années 2016 et 2019.

Pour cela, nous avons compté le nombre de dénomination unique par région, ainsi nous avons le nombre d'entreprises créées dans ces dernières.

Afin de comparer la répartition des entreprises immatriculées par région, nous avons réalisé quelques graphiques interactifs :

'temp-plot.html'

Ces graphiques nous donnent de l'information quant aux régions qui semblent "attractives" pour la création d'entreprises.

Nous remarquons qu'environ un tiers des entreprises créées en France se trouvent en Ile-de-France pendant la période de 2016 - 2019. Nous trouvons ensuite la région Auvergne-Rhône-Alpes et Provence-Alpes-Côte d'Azur.

Ces résultats sont attendus car l'île-de-France est l'un des centres d'impulsion de l'économie mondiale. Elle est à ce jour la première région industrielle française et la plus attractive par ses opportunités.

Remarque: en 2019, nous avons 16 régions, 3 de plus que la période 2016-2018. Ce changement est dû à l'ajout des régions d'outre-Mer tels que Mayotte, La Réunion et la Martinique sur le site InfoGreffe. (acte III de la décentralisation mis en œuvre sous la présidence de François Hollande)

A présent, visualisons l'évolution du nombre d'entreprises créées de 2016 à 2019 par région afin de mettre en évidence leurs tendances.

Graphiquement, on constate que la région Ile-de-France se démarque des autres régions.

En effet, elle possède le plus grand nombre d'entreprises créées toute année confondue. Toutefois, sa création de nombre d'entreprises a connu une chute de 2016 à 2017 mais tend à se stabiliser. Concernant les autres régions, leurs évolutions semblent stables dans le temps.

On remarque également la conservation d'une certaine hiérarchie dominée par l'Ile-de-France, suivie de la région Rhône-Alpes. Plusieurs raisons peuvent expliquer ces phénomènes, comme l'évolution des législations, de la concurence, des politiques régionales ou de la fiscalité.

Regroupons ces analyses par le biais d'une carte de la France

Cette carte permet de visualiser les différences entre les régions en ce qui concerne le nombre total d'entreprises immatriculées. De plus, elle nous fournit des informations de comparaison telle que le secteur d'activité le plus souvent immatriculé par région ou encore la forme juridique dominante.

Répartition des immatriculations par département entre 2016 et 2019 en France

Dans cette partie, nous nous sommes intéressés à l'évolution de la répartition des immatriculations par département entre les années 2016 et 2019.

De même que pour les régions, nous avons représenté les départements, sur fond de nombre d'entreprises immatriculées, via une carte interactive :

Nous tenons à préciser qu'un passage au logarithme a été appliqué sur le nombre total d'entreprises immatriculées par département. Cela nous permet d'avoir une différence visuelle entre les départements.

Paris (département 75) semble être le centre de création des entreprises. En effet, 11% des entreprises créées proviennent de Paris. Notons également que l'ordre des départements a été légèrement modifié au cours du temps. De plus, les départements semblent conserver leur attractivité.

De même que pour les régions, nous avons représenté les départements, sur fond de nombre d'entreprises immatriculé, via une carte interactive :

Nous avons du faire un passage au logarithme pour avoir une différence visuelle notable, sans cela c'était pauvre en information et en dégradé. Ici nous pouvons clairement voir la séparation entre département.

Répartition par ville des immatriculations entre 2016 et 2019 en France

Dans cette partie, nous nous sommes intéressés à la répartition des immatriculations par ville entre les années 2016 et 2019.

Tout d'abord, montrons l'évolution de la répartition de l'immatriculation des entreprises au cours des années par ville.

Paris englobe plus de la moitié des créations d'entreprises à elle seule, suivi par Marseille, Lyon, Toulouse et d'autres villes en terme de création d'entreprise.

Répartition des immatriculations en fonction des secteurs d'activités entre 2016 et 2019 en France

Dans cette partie, nous allons nous intéresser à la variable catégorique "Secteur d'activité" afin d'analyser les secteurs les plus dominants pour la création des entreprises en France.

Affichons les 11 secteurs d'activité les plus fréquents lors des immatriculations sur la période totale (pour chaque année) :

Parmi les secteurs d'activités présents, certaines entreprises sont caractérisées par le secteur "EN INSTANCE DE CHIFFREMENT". A l'aide de la définition de l'INSEE, clarifions la situation de ces entreprises:

Une entreprise en instance de chiffrement est une entreprise enregistrée au tribunal de commerce mais ne possédant pas de code APE (Activité Principale Exercée). Cela signifie qu'elle n'a pas déclaré son secteur d'activité.

Nous pouvons donc dire qu'il y a 48369 entreprises qui, au moment de leur immatriculation, rentraient dans cette définition.

Il semble que les activités type gestion/conseils et restauration soient au coeur des créations d'entreprises, ainsi que les travaux de maçonnerie.

Passons à l'évolution des 11 secteurs d'activité les plus présents lors des créations durant la période entière 2016-2019 :

Les entreprises "EN INSTANCE DE CHIFFREMENT" connaissent une forte croissance de 2016 à 2019. Nous remarquons également une chute de création de holding (en quatre ans, diminution de plus de 50%).

A l'inverse, les entreprises de location de terrain et d'autres biens immobiliers ont été de plus en plus créées.

Répartition des entreprises immatriculées en fonction des formes juridiques entre 2016 et 2019 en France

Nous allons maintenant nous intéresser à l'analyse de la variable "forme_juridique".

Affichons les 7 formes juridiques les plus fréquentes lors des immatriculations sur la période totale (pour chaque année) :

Quatre formes juridiques semblent être dominantes : la Société par Actions Simplifiée a un Associé Unique (SASU), puis la Société par Actions Simplifiée (SAS), ensuite la Société à Responsabilité Limitée (SARL) et enfin la Société à Responsabilité Limitée à Associé Unique (SARLU).

Cela signifie que seulement 4 formes juridiques représentent plus de 97% des créations d'entreprises en France.

En effet, ces formes juridiques dominent car elles offrent des avantages sociaux, administratifs et fiscaux.

Nous allons maintenant nous intéresser à l'évolution des 7 formes juridiques les plus créées en France durant la période 2016-2019 :

Nous retrouvons les quatre formes juridiques précédemment évoquées, nous remarquons également que l'évolution de leur création est stable. La création de SARL semble diminuer et remplacée par les SAS. Les formes juridiques les moins utilisées sont les sociétés à capital variable ainsi que les sociétés à nom collectif.

Évolution mensuelle du nombre d'entreprises créées en France de 2016 à 2019

Ici, nous nous sommes focalisés sur l'aspect chronologique, ce qui veut dire que nous allons visualiser l'évolution mensuelle du nombre de création d'entreprises par année.

Carte de chaleur des entreprises créées durant ces 4 années en France

Pour conclure cette première partie, nous proposons une visualisation à l'aide d'une carte de chaleur permettant de voir la répartition de l'immatriculation en France

Cette dernière nous permet d'avoir une visualisation concrète de la répartition des entreprises créées en France durant ces 4 ans. Nous voyons assez logiquement que la création d'entreprise est très importante aux abords des grandes villes françaises.

Radiation des entreprises :

Dans cette deuxième partie du rapport, nous nous intéressons au nombre d'entreprises radiées en France entre les années 2016 et 2019 en fonction de plusieurs variables.

Répartition des entreprises radiées par région en France

Commençons par l'étude de l'évolution du taux d'entreprises radiées dans chaque région entre 2016 à 2019.

On voit que l'Ile-de-France est également la région qui recense le plus de radiations. De plus, la deuxième position varie entre les régions Provence-Alpes-Côte d'Azur et l'Auvergne-Rhône-Alpes.

Globalement, nous obtenons les mêmes positions que pour les entreprises immatriculées, cela semble être logique : beaucoup d'immatriculation engendre beaucoup de radiation.

Nous verrons par la suite une analyse plus détaillée sur la différence entre les immatriculations et radiations.

Nous avons décidé ensuite de visualiser l'évolution du nombre d'entreprises radiées en fonction des 13 régions métroplitaines sur la période 2016-2019 :

Le graphique ci-dessus nous confirme les conclusions faites précédemment, on remarque que l'Ile-de-France détient le plus grand nombre d'entreprises radiées, mais depuis 2017, elle est en constante augmentation.

Pour les 12 autres régions, il semble qu'elles sont assez constantes au cours des années.

Nous avons réalisé une carte interactive permettant de visualiser, pour chaque région, le nombre d'entreprises radiées, le secteur d'activité et la forme juridique dominante :

Cette carte permet de visualiser les différences entre les régions en ce qui concerne le nombre total d'entreprises radiées. De plus, elle nous fournit des informations de comparaison telle que le secteur d'activité le plus souvent radié par région ou encore la forme juridique dominante.

Répartition des entreprises radiées en fonction des départements français :

Dans cette partie, nous nous sommes intéressés à l'évolution de la répartition des radiations par département entre les années 2016 et 2019.

Nous allons représenter graphiquement les 15 départements les plus importants en terme de radiation :

D'après ces diagrammes en barres, nous remarquons que Paris est toujours en tête du classement suivi par les départements 'Seine-Saint-Denis' et 'Hauts-de-Seine' où les radiations sont les plus importantes .

Un passage au logarithme a été appliqué sur le nombre total d'entreprises radiées par département. Cela nous permet d'avoir une différence visuelle entre les départements.

Répartition des entreprises radiées par ville en France :

Nous allons travailler maintenant sur les villes, en réalisant un regroupement par ces dernières, comme nous avons pu le faire pour la partie immatriculation.

Tout d'abord, nous allons afficher à l'aide des graphiques interactifs les 15 villes où le nombre de radiation a été le plus élevé :

Paris englobe plus de la moitié des radiations d'entreprises à elle seule, suivi par Marseille, Lyon, Toulouse et d'autres villes. Ces mêmes villes sont les villes ayant le plus grand nombre d'entreprises immatriculées en France.

Répartition des entreprises radiées en fonction des secteurs d'activité en France

Dans cette partie, nous allons analyser les secteurs d'activité qui engendrent le plus de radiation des entreprises en France :

Nous remarquons de suite que le nombre de secteurs d'activité a augmenté de façon importante comparé aux immatriculations (en moyenne 600-700 contre 1100-1200 pour les radiations). \ Cela signifie que pour certains secteurs, ils sont en voie de déclin et de disparition : ils ne sont pas dans les immatriculations, mais se font radiées, autrement dit en déficit de création et à terme pourrait disparaître.

Représentons ceci par des diagrammes en barres interactifs :

Nous avons représenté les 11 secteurs d'activités les plus radiés en France durrant la période 2016-2019.

Puis, nous avons affiché l'évolution de ces secteurs d'activités :

En général, tous les secteurs d'activité connaissent une augmentation de radiation. Plus précisément, les secteurs de conseil pour les affaires et le secteur de restauration classique font partie des secteurs connaissant les plus grandes augmentations de radiation.

Répartition des formes juridiques des entreprises radiées en France

Nous allons maintenant nous intéresser à l'analyse de la variable "forme_juridique"

Affichons les formes juridiques les plus fréquentes lors des radiations sur la période totale (pour chaque année) :

Quatre formes juridiques semblent être dominantes : la Société à Responsabilité Limitée (SARL), la Société à Responsabilité Limitée à Associé Unique (SARLU), la Société par Actions Simplifiée a un Associé Unique (SASU) et enfin la Société par Actions Simplifiée (SAS).\ Cela signifie que seulement 4 formes juridiques représentent plus de 97% des radiations d'entreprises en France.

Et affichons l'évolution des 8 formes juridiques les plus radiées en France durant la période 2016-2019 :

Évolution mensuelle du nombre d'entreprises radiées en France de 2016 à 2019

Ici, nous nous sommes focalisés sur l'aspect chronologique, ce qui veut dire que nous allons visualiser l'évolution mensuelle du nombre de radiation d'entreprises par année.

Il y a une chute du nombre de radiation tous les mois d'août. Cela peut s'expliquer du fait que les Registres du Commerce et des Sociétés soient fermés durant le mois d'août.

Carte de chaleur des entreprises radiées en France de 2016 à 2019

Voici ci-contre une carte de chaleur, qui nous permet de visualiser les zones où les radiations sont les plus nombreuses :

Nous remarquons les mêmes zones que pour les immatriculations, une petite différence vers la Normandie,, où il y a un vide un peu plus prononcé. Mais encore une fois, rien de très différent fondamentalement.

Croisement avec une nouvelle base de données :

Une fois la partie statistique descriptive de notre jeu de données principal terminée, nous nous sommes intéressés au croisement des deux jeux de données avec de nouvelles tables. \ Notre choix a été porté sur les PIB par région ainsi que par département. Ces nouvelles données sont issues de l'INSEE.

Remarque le calcul des PIB n'est réalisé que tous les 5 ans, ainsi nous n'avons à disposition que le PIB de 2015 de chaque région. De plus, les valeurs sont en millions de dollars.

Revenu selon la région :

Le but ici est de faire le lien entre ces nouvelles variables avec les données des entreprises par région. Pour cela, une carte intéractive a été réalisée. La coloration de la carte fait référence au ration du nombre d'entreprises immatriculées sur la somme des entreprises immatriculées et radiées. De plus, la taille des cercles par région varie en fonction du PIB de la région.

Il ne semblerait pas que le ratio d'entreprises immatriculées/radiées soient lié au PIB de la région. Pour vérifier cette hypothèse, nous effectuerons par la suite des tests d'hypothèses .

Revenu selon le département

Dans cette partie, nous allons faire le lien entre les nouvelles variables avec les données des entreprises par département.

Nous pouvons noter que le département de la Moselle est le seul à avoir un ratio inférieur à 50%.

Département PIB département latitude longitude NbrImm SectDomImm FJDomImm NbrRad SectDomRad FJDomRad Pourcentage
65 Moselle 32089.0 49.134164 6.414693 153 Restauration de type rapide Societe par actions simplifiee a associe unique 866 Travaux de maconnerie generale et gros oeuvre ... Societe a responsabilite limitee 15.01472

En effet, ce département a un ratio de 15% : autrement dit, dans ce département, il semble y avoir une désertification entrepreneuriale, il y a plus de radiations que de créations.

Comparaison des caractéristiques de l'immatriculation et la radiation des entreprises

Analyse des ressemblances entre les régions :

Le but de cette partie est de mettre en évidence les différences et les ressemblances entre les région. Les comparaisons seront basées sur la création et la radiation d'entreprises.

L'île-de-France est la région contenant le plus de création et le plus de radiation d'entreprises. Nous pouvons également voir que Auvergne-Rhône-Alpes, Provence-Alpes-Côte d'Azur, l'Occitanie et la Nouvelle-Aquitaine sont régions semblables et font partie de celles les plus attractives pour les entreprises. Enfin, il y a également certaines région comme la Corse, la Normandie, Grand Est ou encore les Pays de la Loire qui sont semblables et qui contiennent un nombre d'entreprises moins important que le reste.

Analyse des ressemblances entre les départements

Le but de cette partie est de mettre en évidence les différences et les ressemblances entre les départements. Les comparaisons seront basées également sur la création et la radiation d'entreprises.

Ici, nous pouvons classifier les départements en quatre sous-groupes. Paris qui contient par exemple le plus de création et de radiation d'entreprises. Ensuite, certains départements de la région île-de-France (Seine Saint-Denis et Hauts-De-Seine) avec d'autres de la région Auvergne-Rhône-Alpes. Enfin les autres départements sont partagés en deux sous-groupes.

Évolution mensuelle du nombre d'entreprises immatriculées et radiées

Dans cette partie, nous allons comparer l'évolution temporelle du nombre d'entreprises immatriculées et radiées. De plus, nous avons rajouté la droite de régression afin de comparer la tendance des courbes d'évolution.

C:\Users\MHI19\AppData\Local\Continuum\anaconda3\lib\site-packages\plotly\graph_objs\_deprecations.py:441: DeprecationWarning:

plotly.graph_objs.Marker is deprecated.
Please replace it with one of the following more specific types
  - plotly.graph_objs.scatter.Marker
  - plotly.graph_objs.histogram.selected.Marker
  - etc.


D'après le graphique ci-dessus, nous remarquons une diminution du nombre d'entreprises radiées et immatriculées tous les mois d'août de chaque année ce qui peut être expliquée par le fait que les bureaux soient fermés durant les vacances d'été.

Prédiction du nombre d'entreprises immatriculées et radiées avec Prophet

Dans cette partie, nous allons prédire l'évolution du nombre d'entreprises immatriculées/radiées en France. Pour cela, nous allons utiliser Prophet.

Prophet est un outil qui a été conçu par Facebook dans le but d'automatiser le processus d'étude des séries chronologiques en fournissant des méthodes simples et ajustables. Il est basé sur un modèle additif où les tendances non linéaires sont ajustées à la saisonnalité annuelle, hebdomadaire et quotidienne.

Pour construire le modèle Prophet, nous allons utiliser les données brutes mais en modifiant le tableau de données afin de l'adapter au modèle Prophet.

De plus, l'ensemble des données sera découpé en deux parties: une partie apprentissage pour entraîner le modèle et une deuxième partie test pour l'évaluation du modèle.

Dans le graphique suivant, nous montrons l'évolution du nombre d'entreprises immatriculées/radiées en France ainsi que la prédiction de l'évolution réalisée avec Prophet:

INFO:fbprophet:Disabling daily seasonality. Run prophet with daily_seasonality=True to override this.
INFO:fbprophet:Disabling daily seasonality. Run prophet with daily_seasonality=True to override this.

Afin d'évaluer les performances du modèle Prophet, nous allons calculer l'erreur quadratique moyenne ainsi que le coefficient de détermination

Modèles Détails RMSE R^2
0 Prophet Immatriculation 838.020750 0.789933
1 Prophet Radiation 651.750438 0.834552

Prédictions

Dans cette partie, nous allons construire un modèle de scoring permettant de connaitre le score de pérennité d'une entreprise à l'aide de ses caractéristiques.

Commençons d'abord par construire et nettoyer le jeu de données que l'on va utiliser dans la suite.

Traitement et vérification des données :

Nous avons ici en tout, immatriculations et radiations fusionnées, 1058879 entreprises, avec leur 13 caractéristiques.

Nous allons voir si des entreprises immatriculées entre 2016 et début 2020 ont été radiées dans le jeu de données de radiation que l'on a à disposition.

32602 entreprises étaient exactement les mêmes, nous les avons donc supprimées du jeu de données de l'immatriculation.

Ajout de variables explicatives dans le jeu de données :

Pour obtenir une bonne prédiction, nous avons ajouté des informations sur la population par département (trouvée sur le site de l'INSEE) et aussi le PIB dans chaque département.

Après de nombreuses manipulations nécessaires, nous disposons maintenant d'un jeu de données se composant du nombre de population et PIB par département, nous pouvons donc procéder à la suppression des colonnes dont on n'aura pas besoin comme les noms des entreprises, les dates de créations, les géolocalisations etc ...

On rajoute la colonne pérennité qui est égale à 1 si l'entreprise n'a pas été radiée jusqu'à fin 2019 et 0 sinon.

Analyse des variables explicatives dans le jeu de données :

Avant d'effectuer nos prédictions, assurons nous qu'il existe des liens statistiques entre nos variables explicatives et notre variable à expliquer.

Dans cette partie nous allons tester le lien entre nos variables explicatives et le fait d'être pérenne. Afin de vérifier cela, nous allons effectuer des tests d'hypothèses.

PIB et Population

Les deux boxplots représentent la répartition du PIB et de la population des départements dans lequels se situent les entreprises obsérvées. La première modalité "0" concerne les entreprises non pérennes et "1" les entreprises pérennes.

Dans les deux boxplots, on ne constate pas une réelle différence entre la répartition de la population et du PIB selon les modalités "0" et "1". Dès lors, on peut émettre l'hypothèse selon laquelle il n'existe pas de réel lien entre ces variables et la variable pérennité.

Nous allons essayer de vérifier cette hypothèse à l'aide d'un test statistique.

Avant d'utiliser un test d'hypothèse, vérifions la normalité de la distribution de nos variables. Nous affichons dans un premier temps la distribution de ces dernières puis nous effectuerons un test de Shapiro-Wilk.

Test de Shapiro-Wilk d'hypothèse nulle:

  • H0: La population est normalement distribuée
stat de test p value Distribution
PIB 0.578654 0.0 non normale
Popupaltion 0.959108 0.0 non normale

Le test est significatif dans les deux cas avec un risque alpha de 5%, on rejette donc l'hypothèse nulle selon laquelle la distribution est normale. Dans ce cas, on utilisera une régression logistique pour observer un lien potentiel.

Optimization terminated successfully.
         Current function value: 0.687487
         Iterations 4
Logit Regression Results
Dep. Variable: pérennité No. Observations: 1023786
Model: Logit Df Residuals: 1023783
Method: MLE Df Model: 2
Date: Mon, 17 Feb 2020 Pseudo R-squ.: 0.001104
Time: 13:50:48 Log-Likelihood: -7.0384e+05
converged: True LL-Null: -7.0462e+05
Covariance Type: nonrobust LLR p-value: 0.000
coef std err z P>|z| [0.025 0.975]
const 0.3713 0.005 75.459 0.000 0.362 0.381
x1 -6.988e-07 6.1e-08 -11.456 0.000 -8.18e-07 -5.79e-07
x2 -1.217e-07 3.11e-09 -39.101 0.000 -1.28e-07 -1.16e-07

Nous nous intéresserons uniquement aux coefficients de la regression $\beta_1$ et $\beta_2$. Ces coefficients, appliqués à l'exponentiel sont les Odds-ratios. D'après les résultats qu'on obtient, les coefficients $\beta_1$ et $\beta_2$ associés à $x_1$ et $x_2$ sont très proches de zero. On en déduit que leurs exponentielles sont très proche de 1, ainsi on en conclut que la population ainsi que le PIB des départements dans lequels se trouve l'entreprise n'influe pas sur la pérennité de cette dernière.

Relation entre les régions, départements, secteurs d'activité et la pérennité :

Afin de déterminer une relation potentielle entre les régions, départements, secteurs d'activité des entreprises et le fait d'être pérenne, nous allons réaliser un test du Chi 2 d'indépendance.

Ce test permet de vérifier l'absence de lien statistique entre deux variables X et Y. Les deux sont dites indépendantes lorsqu'il n'existe aucun lien statistique entre elles, dit autrement, la connaissance de X ne permet en aucune manière de se prononcer sur Y. L'hypothèse nulle du test est:

  • $\mathbb{H}_0$: Les variables X et Y sont indépendantes
stat de test p value résultat
Région 3679.472546 0.0 dépendant
Département 8139.561004 0.0 dépendant
Secteur d'activité 98131.737401 0.0 dépendant
Forme Juridique 142378.057179 0.0 dépendant

Les résultats nous montrent qu'il existe un lien statistique entre ces variables et la variable pérennité avec un risque $\alpha$ inférieur à 5%.

Ensuite, il a fallu transformer toutes nos variables quantitatives en variables qualitatives, ainsi nous avons utilisé LabelEncoding qui consiste à affecter des valeurs entre 0 et n-1 où n est le nombre de classes de chaque variable qualitative. Celà nous permettra d’avoir que des variables numériques dans les modèles de machine learning.

Année Département Forme Juridique Région Secteur d'activité Ville latitude longitude Population PIB pérennité
0 2016 63 147 0 101 14205 48.871442 5.268693 181641 8153 1
1 2016 16 18 1 1183 12148 46.162252 -1.163002 647080 16985 1
2 2016 76 20 11 1221 13365 47.994494 0.196712 560227 8453 1

Répartition du taux de pérennité dans le jeu de données entier :

Logiquement, une fois cela réalisé, nous avons voulu regarder combien nous avions d'entreprises pérennes, et à l'inverse combien d'entreprises ont été radiées dans les 4 ans maximum.

    Le taux d'entreprises pérennes est de 54.95 % dans le jeu de données entier
    Le taux d'entreprises défaillantes est de 45.05 % dans le jeu de données entier

A partir de ces résultats, nous pourrions dire que nous sommes dans un cas de données équilibrées.

Partitionnement des données en apprentissage/test :

Voici donc le nombre d'entreprises pérennes (1) dans notre jeu de données d'apprentissage :

[[     0 369145]
 [     1 449883]]

Et dans notre jeu de données test :

[[     0  92111]
 [     1 112647]]

On a vérifié que l'on dispose de proportions presque égales d'entreprises pérennes et défaillantes dans les données d'apprentissage et de test.

Dans ce qui suit, nous allons implémenter plusieurs modèles de classification binaire afin de choisir le meilleur en terme de performance sur le type de données dont on dispose.

Pour cela, on construit le tableau suivant afin de comparer les performances des différents modèles.

Modèle Détails F1_mesure (app) F1_mesure (test) Erreur (app) Erreur (test)

Construction des modèles :

Les forêts aléatoires:

Dans une première partie, nous allons procéder à l'implémentation des forêts aléatoires qui consistent à faire tourner en parallèle un grand nombre d’arbres de décisions construits aléatoirement et qui aggrégent les prédictions par vote majoritaire.

Voici le tableau résumant les performances des forêts aléatoires sur ces données.

Modèle Détails F1_mesure (app) F1_mesure (test) Erreur (app) Erreur (test)
0 rf paramètres par défaut 0.978445 0.693129 0.023486 0.326253

XGBoost :

Pour faire simple, XGBoost (eXtreme Gradient Boosting) est une implémentation open source optimisée de l’algorithme de boosting de gradient qui est un algorithme d’apprentissage supervisé dont le principe est d’améliorer la qualité de prédiction d’un modèle médiocre en donnant de plus en plus de poids aux valeurs difficiles à prédire au cours de l’apprentissage. Ainsi, on oblige le modèle à s’améliorer.

Modèle Détails F1_mesure (app) F1_mesure (test) Erreur (app) Erreur (test)
0 rf paramètres par défaut 0.978445 0.693129 0.023486 0.326253
1 XGBoost paramètres par défaut 0.719402 0.719599 0.295105 0.294777

En comparant ces résultats, on remarque que l'algorithme XGBoost ne sur-apprend pas contrairement aux forêts aléatoires.

CatBoost :

Dans cette partie, nous allons implémenter un algorithme d'apprentissage automatique mis à disposition récemment de la part de l'entreprise russe Yandex (spécialisée dans la recherche internet dont le moteur de recherche est le plus utilisé par les russophones).

D'après la page github du projet Catboost, c'est un algorithme basé sur le gradient boosting, très performant pour des données pas très volumineuses contrairement aux réseaux de neurones qui ne sont performants que si le nombre d'observations est très grand. C'est une méthode utilisée pour les taches de classification et régression en prenant en entrée des variables numériques mais aussi des variables catégoriques d'où son nom 'Catboost' (pour categorical boosting).

La diffèrence entre Catboost et XGBoost réside dans la construction des arbres de décision. En effet, XGBoost construit ses arbres couche par couche, en essayant d'améliorer la performance après chaque itération, par contre, Catboost construit des arbres de manière symétrique.

L'algorithme prend en entrée la liste des indices des variables catégoriques présentes dans le jeu de données et applique la méthode du One-hot encoding qui consiste à représenter les variables catégoriques en variables binaires où le nombre de colonnes est égal au nombre de modalités de chaque variable moins un.

Commençons par diviser les données en ensemble d'apprentissage et test en supprimant la variable 'Année'.

Classes: {0, 1}
Nombre d'entreprises radiées = 461256, Nombre d'entreprises pérennes = 562530

On entraîne le modèle en utilisant les données d'apprentissage et on teste sur les données de validation afin de voir la performance du modèle sur nos jeux de données. On choisit les métriques F1_mesure et ZeroOneLoss qui reprèsente le taux des mauvaises prédictions

Modèle Détails F1_mesure (app) F1_mesure (test) Erreur (app) Erreur (test)
0 rf paramètres par défaut 0.978445 0.693129 0.023486 0.326253
1 XGBoost paramètres par défaut 0.719402 0.719599 0.295105 0.294777
2 CatBoost paramètres par défaut 0.751018 0.752076 0.273358 0.271955

D'après ces résultats, le modèle 'CatBoost' est celui qui marche le mieux sur ce jeu de données.

Nous allons maintenant tester les prédictions sur une entreprise "bien classée"; dont le secteur d'activité et la forme juridique sont les plus dominants lors des analyses faites sur le jeu de données d'immatriculation.

Prenons par exemple une entreprise installée à Paris avec comme secteur d'activité le conseil pour les affaires et ayant comme forme juridique société par actions simplifiée à associé unique.

     Une entreprise ayant ces caractéristiques a  79.78 % de chances de pérennité

Nous allons faire pareil pour tester les performances sur une entreprise "mal classée":

Le lieu d'installation est Paris, le secteur d'activité est la restauration rapide et la forme juridique est "Société à responsabilité limitée".

     Une entreprise ayant ces caractéristiques a  20.05 % de chances de pérennité

Importance des variables :

Dans cette partie, nous allons essayer d'interpréter le modèle en identifiant les variables les plus importantes. Pour cela, on utilise la fonction get_feature_importance du package Catboost.

Pour chaque variable, on calcule l'erreur du modèle avec et sans elle, si l'erreur augmente, on dit que la variable est importante sinon elle ne l'est pas.

D'après ces résultats, il semble que le modèle Catboost se base majoritairement sur les valeurs des modalités des deux variables catégoriques "Forme juridique" et "Secteur d'activité".

Conclusion

Dans ce rapport, nous nous sommes intéressés à l'analyse descriptive des jeux de données dont on disposait pour ensuite comparer les deux caractéristiques à l'aide des connaissances statistiques vues en cours. Ensuite, nous avons considéré ces deux jeux de données comme des séries chronologiques afin de prédire le nombre d'entreprises immatriculées et radiées jusqu'en août 2020. Enfin, nous avons décidé de développer une application dash permettant à un futur entrepreneur de connaître le taux de pérennité de son entreprise à l'aide de ses caractéristiques en utilisant le modèle de classification automatique le plus performant parmi ceux utilisés (Catboost).

Ce projet nous a permis de mettre en application de nombreux outils statistiques pour l'analyse des données, la visualisation, la modélisation ainsi que le développement de l'application dash. De plus, nous avons tenté de déployer l'application dash sur la plateforme Heroku mais nous n'avons pas réussi à avoir un site web dédié.

Voici un aperçu de l'application développée:

Bibliographie :