Références sur le Big Data et l'Open Data
Nous avons compilé sur cette page des références traitant du Big Data et de l'Open Data et pouvant vous être utile pour vos projets.
Bases de données ouvertes en ligne
- rOpenSci compile des packages R permettant de traiter des données ouvertes.
- Ici de nombreuses données publiques fournies par l'administration française. On peut également citer le site DataFrance.
- La ville de Bordeaux et Bordeaux métropole mettent à disposition des données ouvertes ici et ici.
- Des données d'Airbnb ont été collectées et mises à disposition ici.
- Les données nutritionnelles de nombreux produits de l'agro-alimentaire ici.
- Les données du ministère du travail sont disponibles en ligne ici.
- Les données de la RATP sont accessible ici.
- Il est possible de récupérer de nombreuses données concernant les créations et les fermetures d'entreprises sur le site infogreffe.
- Des données ouvertes mondiales sont listées par pays ici.
Exemples de traitements de données ouvertes
- Ici un exemple de traitement statistique des meta-données des mails internes de l'entreprise Hacking Team
- Ce blog du journal Le Monde aborde les problèmes de traitement de données ouvertes rencontrés par des journalistes du journal. Voir notamment ces exemples là, là et là.
- Ici, comment tenter de prédire le taux d'abstention par commune en France à l'aide de données ouvertes.
- Ici, utilisation des photos accessibles sur Internet pour obtenir des time-lapses de lieux connus.
- De nombreux exemples d'utilisations de données ouvertes sont listées sur le site data.gouv.fr ici. Voir par exemple, l'ubérisation de la banlieue parisienne et une petite étude des prénoms.
Références sur le Big Data
- Un tutoriel sur hadoop et le map-reduce. La partie VI propose des liens vers des gros jeux de données.
- Des documents traitant des problématiques statistiques en Big Data se trouvent sur la page de Philippe Besse. Voir en particulier cette présentation générale de Hadoop.
- Des grosses bases de données sont disponibles ici.
- RHadoop, un package R pour faire du hadoop. Un tutoriel se trouve ici.
Autres
- Tutoriel écrit par Simon Michel expliquant comment héberger une application Shiny en utilisant DropBox.
- Blog d'un étudiant du CMI Big Data de Toulouse réalisé avec Jekyll et regroupant tous ses projets.
- Le portail de challenges proposés par des universités/écoles parisiennes.
- Un projet réalisé par les étudiants du CMI Big Data de Toulouse.