Jean-Francis KALUME, Mohamed-Harith IBRAHIM, Kenza HARIFI, Marceau BILLON
L'entrepreunariat représente un enjeu majeur en France. Ces dernières années, le nombre d'entreprises créées a atteint ses plus hauts niveaux notamment grâce à l'apparition de nouveaux régimes et l'essor de secteurs d'activités prometteurs. C'est dans ce contexte que l'accompagnement des futurs entrepreneurs par la data science est un point crucial.
Comment savoir si son entreprise à une chance de survivre avant même de l'avoir créée ? Est-il possible d'établir une stratégie lors des phases administratives afin d'augmenter les chances de prospérité de son entreprise ? Quels sont les facteurs qui participent à la pérennité des entreprises en France?
Dans ce rapport nous allons répondre à ces questions tout en suivant une démarche de gestion d'un projet de science des données.
Nous avons choisi une méthodologie de travail appelée CRISP-DM qui signifie Cross Industry Standard Process for Data Mining préconnisée par IBM pour une meilleure conduite des projets de data science.
Le modèle de cycle de vie comporte six phases dotées de flèches indiquant les dépendances les plus importantes et les plus fréquentes entre les phases. La séquence des phases n’est pas strictement établie. De ce fait, les projets, pour la plupart, passent d’une phase à l’autre en fonction des besoins.
Les six phases sont les suivantes :
Le projet s'est déroulé en plusieurs phases. D'abord une phase dont l'objectif était l'acquisition, la compréhension et l'analyse des données à disposition. Ensuite, nous nous sommes interessés à la prédiction du nombre d'entreprises créées et radiées jusqu'à fin 2020 et pour finir, nous avons implémenté plusieurs modèles d'apprentissage automatique pour la classification et le calcul du pourcentage de pérennité d'une entreprise à partir de ses caractéristiques pour ensuite développer une application d'aide à la décision pour les futurs entrepreneurs.
Dans un premier temps, nous avons téléchargé les données sur : https://opendata.datainfogreffe.fr/explore/?sort=modified.
Ce site réfère toutes les entreprises immatriculées et radiées. On dit qu'une entreprise est immatriculée si un numéro d'identification a été donné à son fondateur par un registre du commerce et des sociétés. Tous ces numéros sont centralisés dans le Registre National du Commerce et des Sociétés.
À l'inverse, une entreprise radiée par un tribunal de commerce ne figurera plus dans ce registre. Une entreprise peut se faire radier pour plusieurs raisons telles que la fusion avec une autre entité ou une cessation d'activité.
En ce qui nous concerne, nous nous sommes focalisés sur les immatriculations et les radiations d'entreprises, sur la période 2016-2019 en France.
Nous disposons de deux jeux de données df_imm et df_rad contenant respectivement toutes les entreprises immatriculées et radiées entre 2016 et 2019.
Chaque entreprise est caractérisée par les variables suivantes:
Le prétraitement et le nettoyage de données sont des tâches importantes qui doivent intervenir avant d’utiliser un jeu de données à des fins d’apprentissage automatique. Les données brutes sont souvent bruyantes, peu fiables et incomplètes. Leur utilisation pour la modélisation peut générer des résultats trompeurs.
Ci-dessous les étapes de préparation des données :
Nous allons maintenant comparer le nombre d'entreprises créées et radiées chaque année de 2016 à 2019.
D'après les graphiques ci-dessus, nous constatons que l'année 2016 détient le plus grand nombre d'entreprises créées et l'année 2019 posséde le plus grand nombre de radiation comparé aux années précédentes.
Toutefois, aucune année n'a connu une explosion de création ou radiation d'entreprises ou à l'inverse, une absence remarquée.
Dans cette partie, nous allons faire l'analyse descriptive des entreprises immatriculées et radiées en France de 2016 jusqu'à la fin de 2019.
Pour cela, nous effectuerons des analyses par région, département, ville, forme juridique et secteur d'activité dans le cas immatriculé et radié.
Dans cette partie, nous nous sommes intéressés à l'évolution de la répartition des immatriculations par régions entre les années 2016 et 2019.
Pour cela, nous avons compté le nombre de dénomination unique par région, ainsi nous avons le nombre d'entreprises créées dans ces dernières.
Afin de comparer la répartition des entreprises immatriculées par région, nous avons réalisé quelques graphiques interactifs :
Ces graphiques nous donnent de l'information quant aux régions qui semblent "attractives" pour la création d'entreprises.
Nous remarquons qu'environ un tiers des entreprises créées en France se trouvent en Ile-de-France pendant la période de 2016 - 2019. Nous trouvons ensuite la région Auvergne-Rhône-Alpes et Provence-Alpes-Côte d'Azur.
Ces résultats sont attendus car l'île-de-France est l'un des centres d'impulsion de l'économie mondiale. Elle est à ce jour la première région industrielle française et la plus attractive par ses opportunités.
Remarque: en 2019, nous avons 16 régions, 3 de plus que la période 2016-2018. Ce changement est dû à l'ajout des régions d'outre-Mer tels que Mayotte, La Réunion et la Martinique sur le site InfoGreffe. (acte III de la décentralisation mis en œuvre sous la présidence de François Hollande)
A présent, visualisons l'évolution du nombre d'entreprises créées de 2016 à 2019 par région afin de mettre en évidence leurs tendances.
Graphiquement, on constate que la région Ile-de-France se démarque des autres régions.
En effet, elle possède le plus grand nombre d'entreprises créées toute année confondue. Toutefois, sa création de nombre d'entreprises a connu une chute de 2016 à 2017 mais tend à se stabiliser. Concernant les autres régions, leurs évolutions semblent stables dans le temps.
On remarque également la conservation d'une certaine hiérarchie dominée par l'Ile-de-France, suivie de la région Rhône-Alpes. Plusieurs raisons peuvent expliquer ces phénomènes, comme l'évolution des législations, de la concurence, des politiques régionales ou de la fiscalité.
Regroupons ces analyses par le biais d'une carte de la France
Cette carte permet de visualiser les différences entre les régions en ce qui concerne le nombre total d'entreprises immatriculées. De plus, elle nous fournit des informations de comparaison telle que le secteur d'activité le plus souvent immatriculé par région ou encore la forme juridique dominante.
Dans cette partie, nous nous sommes intéressés à l'évolution de la répartition des immatriculations par département entre les années 2016 et 2019.
De même que pour les régions, nous avons représenté les départements, sur fond de nombre d'entreprises immatriculées, via une carte interactive :
Nous tenons à préciser qu'un passage au logarithme a été appliqué sur le nombre total d'entreprises immatriculées par département. Cela nous permet d'avoir une différence visuelle entre les départements.
Paris (département 75) semble être le centre de création des entreprises. En effet, 11% des entreprises créées proviennent de Paris. Notons également que l'ordre des départements a été légèrement modifié au cours du temps. De plus, les départements semblent conserver leur attractivité.
De même que pour les régions, nous avons représenté les départements, sur fond de nombre d'entreprises immatriculé, via une carte interactive :
Nous avons du faire un passage au logarithme pour avoir une différence visuelle notable, sans cela c'était pauvre en information et en dégradé. Ici nous pouvons clairement voir la séparation entre département.
Dans cette partie, nous nous sommes intéressés à la répartition des immatriculations par ville entre les années 2016 et 2019.
Tout d'abord, montrons l'évolution de la répartition de l'immatriculation des entreprises au cours des années par ville.
Paris englobe plus de la moitié des créations d'entreprises à elle seule, suivi par Marseille, Lyon, Toulouse et d'autres villes en terme de création d'entreprise.
Dans cette partie, nous allons nous intéresser à la variable catégorique "Secteur d'activité" afin d'analyser les secteurs les plus dominants pour la création des entreprises en France.
Affichons les 11 secteurs d'activité les plus fréquents lors des immatriculations sur la période totale (pour chaque année) :
Parmi les secteurs d'activités présents, certaines entreprises sont caractérisées par le secteur "EN INSTANCE DE CHIFFREMENT". A l'aide de la définition de l'INSEE, clarifions la situation de ces entreprises:
Une entreprise en instance de chiffrement est une entreprise enregistrée au tribunal de commerce mais ne possédant pas de code APE (Activité Principale Exercée). Cela signifie qu'elle n'a pas déclaré son secteur d'activité.
Nous pouvons donc dire qu'il y a 48369 entreprises qui, au moment de leur immatriculation, rentraient dans cette définition.
Il semble que les activités type gestion/conseils et restauration soient au coeur des créations d'entreprises, ainsi que les travaux de maçonnerie.
Passons à l'évolution des 11 secteurs d'activité les plus présents lors des créations durant la période entière 2016-2019 :
Les entreprises "EN INSTANCE DE CHIFFREMENT" connaissent une forte croissance de 2016 à 2019. Nous remarquons également une chute de création de holding (en quatre ans, diminution de plus de 50%).
A l'inverse, les entreprises de location de terrain et d'autres biens immobiliers ont été de plus en plus créées.
Nous allons maintenant nous intéresser à l'analyse de la variable "forme_juridique".
Affichons les 7 formes juridiques les plus fréquentes lors des immatriculations sur la période totale (pour chaque année) :
Quatre formes juridiques semblent être dominantes : la Société par Actions Simplifiée a un Associé Unique (SASU), puis la Société par Actions Simplifiée (SAS), ensuite la Société à Responsabilité Limitée (SARL) et enfin la Société à Responsabilité Limitée à Associé Unique (SARLU).
Cela signifie que seulement 4 formes juridiques représentent plus de 97% des créations d'entreprises en France.
En effet, ces formes juridiques dominent car elles offrent des avantages sociaux, administratifs et fiscaux.
Nous allons maintenant nous intéresser à l'évolution des 7 formes juridiques les plus créées en France durant la période 2016-2019 :
Nous retrouvons les quatre formes juridiques précédemment évoquées, nous remarquons également que l'évolution de leur création est stable. La création de SARL semble diminuer et remplacée par les SAS. Les formes juridiques les moins utilisées sont les sociétés à capital variable ainsi que les sociétés à nom collectif.
Ici, nous nous sommes focalisés sur l'aspect chronologique, ce qui veut dire que nous allons visualiser l'évolution mensuelle du nombre de création d'entreprises par année.
Pour conclure cette première partie, nous proposons une visualisation à l'aide d'une carte de chaleur permettant de voir la répartition de l'immatriculation en France