Data Engineering
Projet Academique ESILV
π CuriousLAB - Analyse du Tissu Economique de Neuilly-sur-Seine
Outil d'aide a la decision pour la Mairie de Neuilly-sur-Seine, permettant d'analyser le tissu economique local.
π Contexte
Ce projet academique realise a l'ESILV (Equipe 507 - Groupe 7) vise a fournir un outil d'analyse
pour deux services de la mairie :
Service Relations Entreprises
Mieux connaitre le tissu economique local, personnaliser l'approche envers les entreprises selon leur taille, secteur et anciennete.
Service Urbanisme
Comprendre la repartition geographique des entreprises, anticiper les besoins en infrastructures et planifier l'amenagement du territoire.
π Donnees Analysees
10 185
Entreprises analysees
37
Attributs par entreprise
π¦ Sources de Donnees
| Source |
Description |
| INSERN |
Liste des entreprises de Neuilly-sur-Seine (0-49 employes) |
| Diffbot API |
Enrichissement : informations financieres, contacts, dirigeants, levees de fonds |
| Nominatim (OpenStreetMap) |
Geocodage des adresses (latitude/longitude) |
ποΈ Pipeline ETL
βββββββββββββββ Extract βββββββββββββββ Transform βββββββββββββββ
β 20 fichiers β βββββββββββ> β Deduplicationβ βββββββββββ> β Geocodage β
β Diffbot β β Normalisationβ β Enrichissementβ
βββββββββββββββ βββββββββββββββ ββββββββ¬βββββββ
βΌ
data_final.xlsx
(10 185 entreprises)
Etapes de Transformation
| Etape |
Description |
| Deduplication |
Suppression des doublons sur SIREN |
| Normalisation |
Noms en majuscules, espaces β underscores |
| Filtrage |
Focus sur Neuilly-sur-Seine (92200) |
| Jointures |
Enrichissement par Entity_id et Entity_name |
| Geocodage |
Ajout latitude/longitude via Nominatim |
π Attributs des Donnees Finales
| Categorie |
Champs |
| Identification |
SIREN, Entity_name, Entity_id |
| Description |
description, sector |
| Temporel |
creation_date, creation_year, age, seniority |
| Taille |
employees |
| Localisation |
address, postal_code, city, latitude, longitude |
| Statut |
isAcquired, isDissolved, isNonProfit, isPublic |
| Financier |
revenue_currency, revenue_value, revenue_usd, revenue_eur, nbLocations |
| Investissements |
Investment_round, Investment_date, Investment_amount, Investment_currency |
| Contact |
Emails, Board_members |
π οΈ Technologies Utilisees
Python 3.x
Pandas
NumPy
Geopy
Jupyter Notebook
Tableau Desktop
Excel/Parquet
π Structure du Projet
CuriousLAB_Equipe507_G7/
β
βββ Dashboard/
β βββ CuriousLab_vf.twbx # Dashboard Tableau interactif
β βββ EQUIPE 507, G7 - POSTER.pdf # Poster de presentation
β
βββ DataPrep/
βββ perparation.ipynb # Notebook Jupyter - Pipeline ETL
βββ data_final.xlsx # Donnees consolidees (10 185 entreprises)
βββ geoloc_results.csv # Resultats de geolocalisation
βββ data/
βββ parquet/ # 20 fichiers Parquet (donnees brutes)
βββ xlsx/ # 20 fichiers Excel (donnees brutes)
β¨ Cas d'Usage
π€
Service Relations Entreprises
- Identifier les entreprises par secteur d'activite
- Cibler les entreprises en croissance
- Obtenir les contacts directs
- Segmenter par taille et anciennete
ποΈ
Service Urbanisme
- Visualiser la concentration geographique
- Identifier les zones a forte densite
- Planifier les infrastructures
- Suivre l'evolution economique
π Liens