1 Introduction

(Hugo)

En France, toute personne physique ou morale qui a la qualité de commerçant doit s’inscrire au registre du commerce et des sociétés (RCS). Ce registre est tenu par le tribunal de commerce et les registres des différentes greffes de tribunaux sont centralisés dans le registre national du commerce et des sociétés (RNCS). Toute entreprise présente dans ce registre est immatriculée, c’est-à-dire qu’un numéro d’identification lui est attribué, et toute entreprise radiée par un tribunal de commerce ne figure plus dans ce registre. Une entreprise peut être radiée pour diverses raisons telles qu’une fusion, une dissolution ou une cessation d’activité.
Ainsi, à travers les informations contenues dans le registre du commerce et des sociétés, nous nous proposons d’étudier l’activité entrepreneuriale en France entre 2012 et 2017.

2 Prétraitement des Données

(Julien)

2.1 Récupération & Nettoyage

Les données principales concernent les radiations et immatriculations d’entreprises entre 2012 et 2017, ce sont des données ouvertes disponibles chez Infogreffe1, groupe gérant le registre officiel des entreprises et commerces directement d’après le Tribunal de Commerce. Ces données contiennent, par année, entre 120 et 200 milles entreprises immatriculées ou radiées en fournissant beaucoup d’informations sur celles-ci.
Les jeux de données plus récents contiennent plus d’informations, voici les variables communes à tout les jeux de données des greffes :
-Dénomination (nom légal de l’entreprise).
-SIREN (numéro d’identification INSEE).
-Forme Juridique.
-Secteur d’activité.
-Adresse.
-Code postal.
-Ville.
-Région (ancien nom, pas celui de la grande région actuelle).
-Greffe (ville où s’est effectué la greffe).
-Fiche entreprise (lien internet d’Infogreffe).
-Géolocalisation (lattitude et longitude sous forme décimale).
-Date d’immatriculation/radiation.
-code APE (code à but statistique de l’INSEE).
On rajoutera une variable correspondant au numéro du département (existant déjà dans certains) déterminé par le code postal ainsi que deux variables latitude et longitude correspondant aux deux valeurs de la variable Géolocalisation par soucis de simplicité pratique.
On se servira aussi du recensement de la population fait par l’INSEE2 pour 2012 et 2017 ainsi que de données socio-économiques toujours fournies par l’INSEE3 constituées de 3 jeux de données : des données économiques et liées au travail/scolaire, des données du développement durable et environnement et d’autres sur la qualité et le niveau de vie. Le détail de ces données socio-économiques sera traité plus loin.

2.2 Description des Données

Parmi les variables communes aux divers données d’InfoGreffe quelques variables sont assez peu conventionnelles4 :
-le code SIREN est un identifiant chiffré unique de l’entreprise, il n’est donc pas plus explicatif que le nom de l’entreprise.
-le code APE est un identifiant chiffré unique du secteur d’activité de l’entreprise et n’est donc pas plus explicatif que la variable désignant le secteur d’activité, à noter que contrairement au SIREN ces chiffres ne sont pas attribués indépendement de l’entreprise.
-le lien de la variable fiche entreprise ne nous servira à priori pas car cela correspond seulement à l’adresse des informations disponibles sur Infogreffe.
Les autres variables sont toutes de type catégoriel ou textuel à l’exception des dates et des données de géolocalisation, bien que le code postal ou le numéro de département soient écrits sous forme de nombres il n’existe pas de notion d’ordre.

##      Dénomination Siren     Forme Juridique Secteur activite Adresse  
## [1,] "textuel"    "textuel" "catégoriel"    "catégoriel"     "textuel"
##      Code postal Ville     Région       Greffe       Fiche entreprise
## [1,] "textuel"   "textuel" "catégoriel" "catégoriel" "texte"         
##      Date immatriculation/radiation APE          Lat         Long       
## [1,] "date"                         "catégoriel" "numérique" "numérique"
##      Num. dept.  
## [1,] "catégoriel"

La variable greffe peut être définie comme catégorielle car il y a un nombre raisonnable de villes différentes où les greffes sont effectuées. Par exemple pour les immatriculations en 2012, le nombre de villes différentes est :

## [1] 134

On notera que ces données contiennent des valeurs manquantes :

##       imma.   rad.
## 2012 0.0092 0.0105
## 2013 0.0077 0.0095
## 2014 0.0084 0.0363
## 2015 0.0087 0.0166
## 2016 0.0166 0.0175
## 2017 0.2527 0.1718

Le taux de données manquantes est acceptable (<5% usuellement) sauf pour les données datant de 2017, celles-ci ont pour particularité de contenir beaucoup plus de variables. Si on se concentre sur les variables dont nous allons majoritairement nous servir dans cette étude (Dénomination, Code postal, Date immatriculation/radiation, Département, Forme Juridique, Secteur d’activité, Géolocalisation), nous avons des taux de données manquantes acceptables :

##       imma.   rad.
## 2012 0.0086 0.0100
## 2013 0.0077 0.0093
## 2014 0.0086 0.0103
## 2015 0.0103 0.0189
## 2016 0.0197 0.0159
## 2017 0.0387 0.0140

3 Représentation par Département

(Julien)

Nous allons observer la répartition du nombres d’entreprises immatriculées et radiées en 2012 et 2017 dans les départements. Il semble probable que la population d’un département soit fortement corrélée à ces chiffres, voici les corrélations par défaut offertes par R :

##          imma.      rad.
## 2012 0.7619901 0.7709083
## 2017 0.7752203 0.7247863

On peut considérer que ces corrélations semblent plutôt hautes mais il convient de les regarder plus proprement avec quelques tests, tout d’abord nous allons vérifier la normalité des données par un test de Shapiro-Wilk :

##              pop.        imma.         rad.
## 2012 5.429978e-08 4.354382e-16 4.329250e-15
## 2017 6.920977e-08 3.521208e-16 1.874927e-16

Les p-valeurs sont nulles, on rejette donc de façon presque certaine l’hypothèse de normalité de la distribution des données, on se servira donc d’un test de corrélation de Kendall (Spearman est possible) par exemple et non de Pearson qui a besoin de l’hypothèse de normalité :

##             imma.         rad.
## 2012 2.533310e-25 3.830896e-30
## 2017 7.532331e-25 1.859717e-23

On rejette l’hypothèse d’independance par nullité de ces p valeurs alors la population et le nombre d’entreprises immatriculées/radiées par département sont très fortement corrélés. Il n’est donc pas pertinent de regarder l’activité des entreprises indépendement du nombre d’habitants du département. Pour mieux se représenter l’activité des entreprises dans chaque département nous allons observer le nombre d’immatriculations/radiations d’entreprises divisés par la population départementale (en milliers), c’est-à-dire le nombre d’entreprises immatriculées/radiées par tranche de 1000 habitants :

On a une certaine cohérence sur ces cartes, tout le sud de la France abrite une plus forte activité entrepeunariale que le reste du pays, la Corse semble aussi très active et évidement l’Ile-de-France a le maxmimum d’immatriculations et radiations, on peut spéculer que le tourisme est le point commum de ces 3 zones. On remarque que 3 départements du Nord-Est (Moselle 57, Bas-Rhin 67 et Haut-Rhin 68) n’ont aucune immatriculation d’entreprises, cela s’explique par l’inexistence de tribunaux de Commerce dans ces départements.
Voyons comment cela se passe 5 ans plus tard :

La disparité vue en 2012 se conserve mais on peut remarquer que le nombre d’entreprises radiées et immatriculées semblen avoir augmenté :

Augmentation moyenne :

## [1] 0.1525822

Augmentation moyenne :

## [1] 0.0221617

On peut effectuer un test de comparaison des moyennes entre les années 2012 et 2017 (test de Student) :

## 
##  Welch Two Sample t-test
## 
## data:  formes_imma_2017$imma. and formes_imma_2012$imma.
## t = 1.8147, df = 186.11, p-value = 0.07118
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.02783931  0.66686014
## sample estimates:
## mean of x mean of y 
##  2.412094  2.092583
## 
##  Welch Two Sample t-test
## 
## data:  formes_rad_2017$rad. and formes_rad_2012$rad.
## t = -0.30189, df = 188.46, p-value = 0.7631
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.2886546  0.2120296
## sample estimates:
## mean of x mean of y 
##  1.495010  1.533323

La p-valeur étant très grande pour les radiations, on peut dire que le nombre de radiations a peu augmenté entre 2012 et 2017. Pour le nombre d’immatriculations, la progression est plus importante, la p-valeur est certes plus grande que les usuels 5% mais l’écart reste assez faible, on peut donc considérer que l’augmentation est significative (explication pratique possible : phénomène des starts-up). Cette déduction reste assez superficielle, on prendra plus en compte le facteur temps avec des séries chronologiques.

4 Les Formes Juridiques

(Hugo)

4.1 Les Entreprises Immatriculées

Les entreprises sont toutes caractérisées par une forme juridique. Il existe environ 90 formes juridiques, cependant entre les années 2012 et 2017 seulement 5 formes juridiques sont fortement représentées. Par souci de clarté, pour désigner ces formes juridiques, nous utiliserons le code suivant :
-SARL : Société à responsabilité limitée.
-EURL : Société à responsabilité limitée à associé unique.
-SNC : Société en nom collectif.
-SAS : Société par actions simplifiée.
-SASU : Société par actions simplifiée à associé unique.

D’une forme juridique à l’autre, les responsabilités, le capital social ou encore le régime fiscal qui s’y rapportent varient radicalement.5 Nous allons donc définir un peu plus précisément les formes juridiques qui nous intéressent :

_La société à responsabilité limitée (SARL): il s’agit d’une personne morale, avec au minimum deux associés. C’est la forme juridique la plus répandue pour les sociétés. Notons que cette forme juridique ne peut pas ête choisie pour les professions juridiques, judiciaires ou de santé (hors pharmaciens).

_La société à responsabilité limitée à associé unique (EURL) : il s’agit d’une SARL qui ne comporte qu’un seul associé. Elle permet au créateur de bénéficier du régime de la responsabilité limitée tout en conservant l’entière maîtrise de ses affaires.

_La société en nom collectif (SNC) : il s’agit d’une société dans laquelle les associés, au minimum au nombre de deux, ont la qualité de commerçants. Ils sont donc responsables de manière solidaire et indéfinie des dettes de la société.

_La société par actions simplifiée (SAS) : Ce type de société permet une plus grande souplesse au niveau du capital et de la transmission des actions. Cette forme juridique, comme la SARL, ne peut pas être choisie pour les professions juridiques, judiciaires ou de santé (hors pharmaciens).

_La société par actions simplifiée à associé unique (SASU) : il s’agit d’une SAS ne comportant qu’un seul associé.6

Nous pouvons alors observer l’évolution des formes juridiques adoptées par les entreprises immatriculées entre 2012 et 2017 :

Nous pouvons remarquer qu’en 2012, les sociétés à responsabilité limitée (SARL) et les sociétés à responsabilité à associé unique (EURL) étaient les formes juridiques les plus adoptées par les entreprises. Toutefois, le nombre d’entreprises choisissant la société par actions simplifiée à associé unique (SASU) comme forme juridique ne cesse de croître depuis 2012, pour devenir à partir de 2015, la forme juridique majoritairement adoptée en France par les entreprises.

Ces graphiques illustrent bien le changement de répartition des formes juridiques entre 2012 et 2017. Nous constatons que la société à responsabilité limitée était la forme juridique la plus répandue en 2012, mais a connu une forte baisse de popularité au profit de la société par actions simplifiée à associé unique.

Pour nous convaincre que le changement de répartition des formes juridiques est significatif, nous allons utiliser le test de Wilcoxon, permettant de tester l’hypotèhse selon laquelle la distribution des données est la même en 2012 et en 2017.

##                                                      p-valeurs
## Société à responsabilité limitée                  7.396023e-07
## Société à responsabilité limitée à associé unique 1.479205e-06
## Société en nom collectif                          3.776853e-01
## société par actions simplifiée                    7.396023e-07
## société par actions simplifiée à associé unique   7.396023e-07

Ce tableau présente de faibles p-valeurs, indiquant que l’on peut rejeter l’hypothèse précédente. La répartition des formes juridiques des entreprises immatriculées en 2012 est donc significativement différente de la répartition des formes juridiques des entreprises immatriculées en 2017.

4.2 Les Entreprises Radiées

Observons l’évolution des formes juridiques adoptées par les entreprises radiées entre 2012 et 2017 :

Ce graphique illustrant les formes juridiques des entreprises radiées entre 2012 et 2017 présente la même évolution que celle des entreprises immatriculées, ce qui paraît cohérent.

De la même façon que pour les entreprises immatriculées, nous allons de nouveau tester la différence de répartition des formes juridiques entre 2012 et 2017, à l’aide du test de Wilcoxon, afin de s’assurer que ces changements sont significatifs.

##                                                      p-valeurs
## Société à responsabilité limitée                  1.114581e-03
## Société à responsabilité limitée à associé unique 6.836144e-02
## Société en nom collectif                          2.616422e-02
## société par actions simplifiée                    7.396023e-07
## société par actions simplifiée à associé unique   3.644203e-05

On peut constater que toutes les p-valeurs de ce tableau sont très faibles. Par conséquent, la répartition des formes juridiques des entreprises radiées en 2012 est significativement différente de la répartition des formes juridiques des entreprises radiées en 2017.

5 Analyse en Composantes Principales (ACP)

(Julien)

Nous allons faire un peu d’analyse multivariée sur la répartition des immatriculations et radiations par département en espérant voir se dégager une certaine logique ou confirmer une des intuitions précédentes. Cela va nous permettre de prendre en compte toutes les données de 2012 à 2017 sans avoir à regarder les cartes une par une par exemple, nos individus seront donc les départements et les variables le nombre d’immatriculations et de radiations de 2012 à 2017 (soit 12 variables) :

A noter tout d’abord que nous avons une ACP qui explique la quasi-totalité de la variance avec les deux premières composantes principales (CP), d’où la pertinence de cette analyse :

##              CP 1        CP 2
## inertie 0.9859298 0.007319867
##            cor CP 1 cor CP 2 contribution CP 1 contribution CP 2
## imma. 2012   0.9970  -0.0424            8.4012            2.0501
## imma. 2013   0.9967  -0.0675            8.3969            5.1852
## imma. 2014   0.9977  -0.0602            8.4127            4.1234
## imma. 2015   0.9976  -0.0607            8.4124            4.1969
## imma. 2016   0.9973  -0.0618            8.4060            4.3424
## imma. 2017   0.9875  -0.1390            8.2418           21.9933
## rad. 2012    0.9908   0.0184            8.2983            0.3870
## rad. 2013    0.9845   0.1475            8.1930           24.7679
## rad. 2014    0.9928   0.0829            8.3304            7.8232
## rad. 2015    0.9907   0.0651            8.2950            4.8252
## rad. 2016    0.9880   0.1329            8.2507           20.1226
## rad. 2017    0.9946  -0.0127            8.3618            0.1828

Toutes les variables sont positivement très corrélées entre elles et avec la première CP, chaque année a donc une influence importante sur les autres, cet aspect temporel sera étudié juste après. Toutes les variables contribuent toutes fortement à parts égales élevés à la première CP, ceci nous montre bien que la première CP résume presque parfaitement la totalité des données, l’interprétation de la seconde CP n’a pas d’importance significative ici au vu de son inertie.
Regardons la répartition des individus dans le premier plan factoriel :

Au vu de la concentration des individus, il est un peu compliqué d’interpréter ce graphique à part pour Paris qui semble déjà hors catégorie. Nous allons donc observer la valeurs sur le premier axe factoriel par département avec une échelle logarithmique (pour écraser l’écart important avec Paris) :

A part pour Paris qui semble être un cas assez particulier, on retrouve parmi les départements aux plus hautes valeurs ceux contenant la plupart des villes les plus attractives en France (top 107) : Bordeaux, Lyon, Toulouse, Marseille, Lilles et Nice. Il nous semblerait donc que la composante principale puisse représenter aussi l’attractivité de la ville (notion englobant niveau de vie, PIB, croissance,…). D’où notre intérêt à vouloir expliquer selon les données socio-économiques.

6 Evolution Temporelle

(Hugo)

Dans cette partie, nous nous intéresserons à l’évolution du nombre d’entreprises immatriculées et à l’évolution du nombre d’entreprises radiées au cours du temps.

6.1 Analyse Univariée

Nous commençons Nous pouvons commencer par visualiser ces évolutions de 2012 à 2017 :

Nous pouvons constater les similitudes apparentes entre ces deux séries.

Nous nous proposons d’estimer les valeurs que prendront ces deux séries, entreprises immatriculées et entreprises radiées, sur l’année 2017 pour comparer nos résultats avec les vraies valeurs et ainsi voir la pertinence de ce modèle.

Nous devons commencer par examiner ces séries.

##                    2012 2013 2014 2015 2016 2017
## mois minimum imma.    8    8    8    8    8    8
## mois minimum rad.     8    8    8    5    8    8

Dans un premier temps, nous remarquons que les pics indiquant les périodes auxquelles il y a le moins d’entreprises immatriculées et radiées correspondent quasiment toujours au mois d’août. Une seule fois, en 2015, le pic indiquant le nombre le plus faible d’enteprises radiées se produit plus tôt, à savoir en mai. Les données semblent donc présenter une certaine saisonnalité.

Nous allons donc décomposer ces séries pour observer plus nettement leur saisonnalité et leur tendance :

Nous pouvons remarquer que la similitude de ces deux séries peut être expliquée en partie par leur saisonnalité qui sont relativement semblables. De plus, nous pouvons constater une tendance haussière pour chacune de ces deux séries. Notons également que ces deux séries présentent une tendance haussière. Pour commencer l’étude de ces séries, nous devons en premier lieu tester leurs stationnarités. Pour ce faire, nous disposons du test de Dickey-Fuller augmenté (ADF test) : l’hypothèse nulle de ce test est la non-stationnarité de la série.

Voici un tableau regroupant les p-valeurs pour le test appliqué à chaque série :

##  Imma.    Rad 
## 0.0356 0.0771

Rappelons qu’une faible p-valeur au test ADF suggère la stationnarité de la série. La série des entreprises immatriculées semble bien stationnaire, à la différence de la série des entreprises immatriculées qui ne l’est pas. Il nous suffit alors de différencier cette dernière pour la rendre stationnaire et obtenir la nouvelle valeur :

##  Imma.    Rad 
## 0.0356 0.0100

Les séries étant maintenant stationnaires, nous pouvons commencer la construction des modèles permettant de les prédire.

Nous allons maintenant pouvoir construire un modèle ARIMA pour prédire ces deux séries. Nous construisons le modèle ARIMA permettant de minimiser au mieux la perte d’information, en choisissant le modèle qui minimise le critère AIC.

Nous allons maintenant prédire les nouvelles valeurs avec ces modèles.

L’intervalle de couleur plus foncé indique un niveau de confiance de 80% tandis que l’intervalle plus clair indique un niveau de confiance de 95%.

Comparaison des valeurs réelles avec les valeurs prédites pour les entreprises immatriculées (nombre en milliers d’entreprises) :

Comparaison des valeurs réelles avec les valeurs prédites pour les entreprises radiées (nombre en milliers d’entreprises) :

Regardons l’erreur commise par le modèle :

##        Immatriculées  Radiées
## Erreur       2.20255 1.272617

L’erreur mesure l’écart moyen entre les prédictions obtenues par le modèle et le nombre réel d’entreprises immatriculées (en milliers d’entreprises). Le modèle fait donc des erreurs de l’ordre de 14% en moyenne.

Pour tenter d’améliorer ces résultats, nous allons maintenant essayer de construire un modèle plus précis.

6.2 Analyse Multivariée

Dans cette partie, nous nous intéressons au lien qui peut exister entre ces deux séries, et les principateurs économiques français. Nous avons choisi 4 indices économiques, disponibles sur le site de l’OCDE8 :

_la confiance des entreprises : indice reposant sur l’évaluation que font les entreprises de la production, des commandes et des stocks, ainsi que de la situation actuelle et de leurs attentes à court terme

_ le produit intérieur brut (PIB) : indice mesuré comme les dépenses en biens et services finaux moins les importations

_ le revenu national brut (RNB) : indice défini comme le PIB plus les salaires et rémunérations nets reçus de l’étranger, plus les revenus nets de la propriété provenant de l’étranger plus les impôts et subventions nets reçus de l’étranger

_un indicateur composite : conçu pour signaler à l’avance les points de retournement des cycles économiques, en montrant les fluctuations de l’activité économique par rapport à son niveau potentiel de long terme

Nous pouvons commencer par regarder le lien qu’il existe entre ces indicateurs et les deux séries qui nous intéressent :

Nous pouvons remarquer que la confiance des entreprises est l’indicateur le plus corrélé avec les entreprises immatriculées, tandis que les entreprises radiées sont essentiellement corrélées aux entreprises immatriculées.

Pour analyser ces séries temporelles, nous allons cette fois construire un modèle ARIMA multivarié, en utilisant toujours le critère AIC.

##        Immatriculées  Radiées
## Erreur      1.480592 1.188585

Le modèle marima permet d’obtenir une erreur plus faible que le modèle ARIMA univarié, et permet donc d’avoir une bonne idée de l’évolution du nombre d’entreprises immatriculées ou radiées. L’ajout d’indicateurs économiques a permis d’obtenir de meilleures prédictions. Il est donc possible de trouver de nouveaux indicateurs permettant d’améliorer encore ces prédictions.

7 Modèles de Régression

(Julien)

Ici le but va être de se servir des données socio-économiques par département de l’INSEE pour expliquer la répartition des immatriculations et radiations d’entreprises, nous allons tout d’abord clarifier l’élément à expliquer au vu de la diversité des données puis nous essaierons de construire divers modèles linéaires simples de Machine Learning.

7.1 Données Socio-Economiques

Comme rapidement exposé au début, nous avons 3 jeux de données sur les départements ainsi que sur la totalité de la France métropolitaine et la province :
-Eco : données économiques reliées à l’emploi (taux d’emploi, moyen de transports, diplômes et poids de l’économie sociale solidaire).
-Dev : données concernant le développement durable et l’écologie (énergies vertes utilisées, états des sols).
-Vie : données exposant la qualité de vie de la population (espérance de vie, taux de pauvreté, éloignement des services de santé, zones inondables).
Le nettoyage de ces jeux de données à surtout consister à éviter des problèmes de format depuis Excel et à harmoniser avec R, au vu de la petite taille des données les modifications ont été faites majoritairement à la main (suppression de points et points-virgules excédentaires, suppression des régions). Nous avons un nombre minime de données manquantes (signalées par ‘nc’ à l’origine dans Excel) :

##                                    Dev Eco Vie
## taux de données manquantes 0.005830904   0   0

Le vrai soucis de ces données vient de l’aspect temporel, la répartition des immatriculations/radiations par département est connue de 2012 à 2017 alors que par exemple on connait le taux d’emploi seulement en 2009 et 2014 et la part d’agriculture bio en 2010 et 2016. Ce ne sera donc pas possible d’expliquer les activités des entreprises pour chaque année, nous allons seulement expliquer les données d’une seule année à priori.
4 variables ne sont disponibles que pour une seule année : poids de l’économie sociale solidaire dans les emplois salariés (2015), disparité du niveau de vie (2014), taux de pauvreté (2014) et taux de population éloignée de plus de 7min des services de santé (2016). Si on calcule l’écart moyen entre les années de ces variables et celles des données d’immatriculations/radiations on obtient :

##             2012 2013 2014 2015 2016 2017
## écart moyen 2.75 1.75 0.75 0.75 1.25 2.25

Ce qui veut seulement dire que 2012 a un écart moyen (en valeur absolu) de 2.75 avec (2014,2014,2015,2016). Nous allons calculer l’écart moyen pour toutes les variables socio-économiques mais vu que les autres présentent deux années possibles, nous allons à chaque fois prendre l’année la plus proche. C’est-à-dire que si une variable a des valeurs pour 2016 et 2013, nous prendrons 2013 pour calculer l’écart avec 2012, 2013 et 2014. Si on calcule tout les écarts moyens nous avons :

##               2012     2013     2014     2015     2016     2017
## écart moyen 3.1875 2.078125 0.921875 0.984375 1.703125 2.953125

L’année 2014 a le plus faible écart moyen avec les dates des variables socio-économiques, nous allons donc essayer d’expliquer la répartition des immatriculations et radiations par département en 2014 selon les données socio-économiques en prenant l’année la plus proche (la supposition ici est que toutes les données socio-économiques ont peu variées d’une année à la suivante ou précédente).
A noter aussi que nous allons retirer les données des départements n’ayant pas de tribunaux de commerce (57, 67, 68) qui sont des anomalies au vu des conditions socio-économiques et moyenniser les données des deux départements de la Corse.

7.2 Modèle Linéaire

Maintenant nous allons construire un modèle de régression linéaire multiple classique. Cette méthode ne gère pas les valeurs manquantes comme le font les arbres de décision CART par exemple, il convient de les estimer, nous ferons simple en les remplaçant par la moyenne de la variable concernée (cette estimation des données manquantes a tendance à sous-estimer la variance des données).

Regardons le résumé de la régression concernant les coefficients pour les immatriculations :

##                                                      Estimate Pr(>|t|)
## (Intercept)                                       -85306.5394   0.7569
## Poids_économie_sociale_solidaire_emplois_salariés     35.0931   0.5080
## Disparite_niv_vie                                   3007.3668   0.0000
## Taux_pauvrete                                        -47.5810   0.6069
## pop_eloignee_7mn_services_sante                       -9.1105   0.7508
## Taux_valorisation_matière_organique                   12.0859   0.3253
## Part_surfaces_artificialisées                        -22.1539   0.1921
## Part_bio_agriculture_totale                           38.7671   0.1719
## Production_granulats                                   0.0002   0.0007
## Eolien                                              -394.8372   0.8253
## Photovoltaïque                                      -385.1896   0.8296
## Autre_énergie                                       -390.9178   0.8271
## Taux_emploi                                          -57.8468   0.5440
## Jeunes_diplomés                                       33.5376   0.5002
## Voiture                                             1270.8766   0.5784
## Transport_commun                                    1419.9608   0.5346
## autre_transport                                     1439.8562   0.5300
## Esp_vie_h                                           -535.0273   0.0184
## Esp_vie_f                                            340.1339   0.1554
## jeunes_non_inseres                                    21.3084   0.7345
## pop_zone_inondable                                   -42.5909   0.0166

Ce qui nous intèresse particulièrement ici est les p-valeurs, le test appliqué dans la régression a pour hypothèse nulle la nullité du coefficient. Ici les plus faibles p-valeurs (<2% dans notre cas) concernent :
-la disparité du niveau de vie influe positivement sur le nombre d’entreprises crées, on peut considérer que les plus riches sont les principaux investisseurs et créateurs d’entreprises.
-la production de granulats est aussi positivement liée, ceci fait sens car les granulats sont un des éléments de base des matériaux de construction urbaine, ceci implique donc l’existence d’entreprises de transports, d’extraction des roches, etc… La faible valeur de ce coefficient s’explique par l’échelle de cette variable qui s’exprime souvent en millions de tonnes extraites.
-Le taux de population en zone inondable augmente inversement par rapport aux nombres d’entreprises crées, les entreprises ne veulent donc pas s’installer dans des zones où elles ont plus de risques de voir leur locaux disparaîtrent (idée raisonnable au vu des mois passés !).
-L’espérance de vie des hommes est négativement lié, ceci paraît plus dur à interpréter car l’espérance de vie des femmes semble moins lié. Vraie conséquence d’une inégalité ? Probablement car les chefs d’entreprises et hauts postes sont moins occupés par des femmes.

Observons pour les radiations :

##                                                      Estimate Pr(>|t|)
## (Intercept)                                       -34434.6914   0.8733
## Poids_économie_sociale_solidaire_emplois_salariés     36.2365   0.3836
## Disparite_niv_vie                                   2363.6787   0.0000
## Taux_pauvrete                                        -37.0361   0.6094
## pop_eloignee_7mn_services_sante                        3.3292   0.8822
## Taux_valorisation_matière_organique                   11.3522   0.2391
## Part_surfaces_artificialisées                        -11.2643   0.3958
## Part_bio_agriculture_totale                           26.9047   0.2257
## Production_granulats                                   0.0002   0.0027
## Eolien                                              -378.4684   0.7872
## Photovoltaïque                                      -374.3068   0.7896
## Autre_énergie                                       -375.0068   0.7892
## Taux_emploi                                          -36.5335   0.6247
## Jeunes_diplomés                                       22.9191   0.5565
## Voiture                                              741.5813   0.6789
## Transport_commun                                     835.9809   0.6406
## autre_transport                                      824.9453   0.6459
## Esp_vie_h                                           -398.9609   0.0247
## Esp_vie_f                                            246.1261   0.1891
## jeunes_non_inseres                                    20.8505   0.6720
## pop_zone_inondable                                   -20.5934   0.1344

Etrangement, les valeurs remarquables sont sensiblement les même, il peut donc convenir de généraliser les remarques précédentes pour l’activité générale des entreprises et non juste leur création. La majorité des variables présente à priori selon leur p-valeur un coefficient proche de 0 mais le coefficient estimé semble très loin de 0, il convient donc de douter un minimum de l’efficicacité de ce modèle.

7.3 Modèle Linéaire avec Sélection de Variables

Plutôt que d’interpréter la pertinence des variables seulement à partir d’une p-valeur, nous allons effectuer de la sélection de variables avec des méthodes de régression linéaires pénalisées. Nous sommes ici dans un cas de faible dimension avec un échantillon de petite taille et peu de variables, nous pouvons donc aisément user du critère AIC (ou pénalité L0) et regarder les variables sélectionnées :

##   [,1]                [,2]                          [,3]                  
##   "Disparite_niv_vie" "Part_bio_agriculture_totale" "Production_granulats"
##   [,4]     [,5]              [,6]               [,7]             
##   "Eolien" "Jeunes_diplomés" "Transport_commun" "autre_transport"
##   [,8]        [,9]        [,10]               
##   "Esp_vie_h" "Esp_vie_f" "pop_zone_inondable"
##   [,1]                [,2]                                 
##   "Disparite_niv_vie" "Taux_valorisation_matière_organique"
##   [,3]                          [,4]                   [,5]              
##   "Part_bio_agriculture_totale" "Production_granulats" "Transport_commun"
##   [,6]              [,7]        [,8]                
##   "autre_transport" "Esp_vie_h" "pop_zone_inondable"

On retrouve entre autres les variables qui semblaient pertinentes au vue des p-valeurs, l’activité des entreprises semblent beaucoup dépendre de variables liées à l’écologie ainsi qu’aux diplômes des jeunes. Tout ceci se retrouve fortement dans le domaine des start-ups majoritairement fondées par des jeunes actifs qui dans beaucoup de cas échouent rapidement et le phénomène de développement durable s’est accentué ces dernières années ce qui a créé du travail supplémentaire lié dans notre cas au bio, éolien et modes de transports autre que la voiture.
Cependant, il convient de se convaincre que cette sélection de variables est plus pertinente que ne pas en faire, un indicateur raisonnable est de regarder le coefficient de détermination R²=SCE/SCT (entre 0 et 1) de la régression linéaire :

##             MCO       AIC
## imma. 0.8801324 0.8867291
## rad.  0.8518755 0.8612720

Notre sélection avec le critère AIC permet donc de faire une régression linéaire de meilleure qualité, il reste cependant compliquer de dire si ce gain de qualité est très significatif au vu du faible écart. Essayons d’améliorer notre modèle avec une sélection de type LASSO (pénalité L1). La régression LASSO génère aléatoirement des données initiales, en pratique nous allons donc prendre les variables qui ont été sélectionnés plus de 50% des fois sur 20 régressions LASSO pour réduire la variance de la sélection :

##   [,1]                [,2]                              [,3]             
##   "Disparite_niv_vie" "pop_eloignee_7mn_services_sante" "Jeunes_diplomés"
##   [,4]      [,5]              
##   "Voiture" "Transport_commun"
##   [,1]                [,2]              [,3]      [,4]              
##   "Disparite_niv_vie" "Jeunes_diplomés" "Voiture" "Transport_commun"

La sélection de variables est beaucoup plus restrictive qu’avec le critère AIC et on ne garde pas toutes les variables avec de faible p-valeurs vues avec le modèle linéaire. De plus, on remarque que la corrélation entre la variable voiture et transport commun est très élevée :

## [1] -0.9768616

Cette corrélation n’est pas inattendue car les valeurs sommées des variables voiture, transport en commun et autres transports sont censées faire 1. La présence de corrélation est un problème courant de la régression linéaire mais le critère AIC a pu le contourner, vérifions quand même si la sélection LASSO est efficace :

##             MCO       AIC     LASSO
## imma. 0.8801324 0.8867291 0.8311286
## rad.  0.8518755 0.8612720 0.8016635

On peut constater que la séléction LASSO ici dégrade la qualité de la régression linéaire, il conviendrait éventuellement de se servir d’une sélection elastic net qui combine la régression LASSO avec Ridge pour contourner le problème de colinéarité mais ce type de méthode reste plus adapté pour des problèmes de grande dimension.

8 Bibliographie

[1] : Open data Infogreffe, “https://opendata.datainfogreffe.fr/explore/?sort=modified”, 2017-2018.
[2] : INSEE, recensement de la population, “https://www.insee.fr/fr/statistiques/1893198”, 2012 et 2017.
[3] : INSEE, données socio-économiques, “https://www.insee.fr/fr/statistiques/2512993”, 2018.
[4] : Services Publics, “https://www.service-public.fr/professionnels-entreprises/”, 2016.
[5] : economie.gouv, “https://www.economie.gouv.fr/entreprises/entreprise-choisir-statut-juridique”.
[6] : QUELLE FORME JURIDIQUE POUR VOTRE ENTREPRISE, “https://www.legalvision.fr/forme-juridique/”.
[7] : Classement des villes attractives, Presse numérique, “http://www.parcoursfrance.com/actualites/top-20-des-villes-les-plus-attractives-de-france/”,2013.
[8] : OCDE “https://data.oecd.org/fr/france.htm”.


  1. 1

  2. 2

  3. 3

  4. 4

  5. 5

  6. 6

  7. 7

  8. 8