Data Engineering Projet Academique ESILV

πŸ“Š CuriousLAB - Analyse du Tissu Economique de Neuilly-sur-Seine

Outil d'aide a la decision pour la Mairie de Neuilly-sur-Seine, permettant d'analyser le tissu economique local.

πŸ“‹ Contexte

Ce projet academique realise a l'ESILV (Equipe 507 - Groupe 7) vise a fournir un outil d'analyse pour deux services de la mairie :

Service Relations Entreprises
Mieux connaitre le tissu economique local, personnaliser l'approche envers les entreprises selon leur taille, secteur et anciennete.
Service Urbanisme
Comprendre la repartition geographique des entreprises, anticiper les besoins en infrastructures et planifier l'amenagement du territoire.

πŸ“Š Donnees Analysees

10 185
Entreprises analysees
37
Attributs par entreprise
99%
Taux de geocodage
75%
Couverture Entity_id

πŸ“¦ Sources de Donnees

Source Description
INSERN Liste des entreprises de Neuilly-sur-Seine (0-49 employes)
Diffbot API Enrichissement : informations financieres, contacts, dirigeants, levees de fonds
Nominatim (OpenStreetMap) Geocodage des adresses (latitude/longitude)

πŸ—οΈ Pipeline ETL


β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”    Extract    β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”   Transform   β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
β”‚ 20 fichiers β”‚ ───────────>  β”‚ Deduplicationβ”‚ ───────────> β”‚ Geocodage   β”‚
β”‚   Diffbot   β”‚               β”‚ Normalisationβ”‚              β”‚ Enrichissementβ”‚
β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜               β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜              β””β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”˜
                                                                  β–Ό
                                                              data_final.xlsx
                                                              (10 185 entreprises)

Etapes de Transformation

Etape Description
Deduplication Suppression des doublons sur SIREN
Normalisation Noms en majuscules, espaces β†’ underscores
Filtrage Focus sur Neuilly-sur-Seine (92200)
Jointures Enrichissement par Entity_id et Entity_name
Geocodage Ajout latitude/longitude via Nominatim

πŸ“ˆ Attributs des Donnees Finales

Categorie Champs
Identification SIREN, Entity_name, Entity_id
Description description, sector
Temporel creation_date, creation_year, age, seniority
Taille employees
Localisation address, postal_code, city, latitude, longitude
Statut isAcquired, isDissolved, isNonProfit, isPublic
Financier revenue_currency, revenue_value, revenue_usd, revenue_eur, nbLocations
Investissements Investment_round, Investment_date, Investment_amount, Investment_currency
Contact Emails, Board_members

πŸ› οΈ Technologies Utilisees

Python 3.x Pandas NumPy Geopy Jupyter Notebook Tableau Desktop Excel/Parquet

πŸ“‚ Structure du Projet

CuriousLAB_Equipe507_G7/
β”‚
β”œβ”€β”€ Dashboard/
β”‚   β”œβ”€β”€ CuriousLab_vf.twbx           # Dashboard Tableau interactif
β”‚   └── EQUIPE 507, G7 - POSTER.pdf  # Poster de presentation
β”‚
└── DataPrep/
    β”œβ”€β”€ perparation.ipynb            # Notebook Jupyter - Pipeline ETL
    β”œβ”€β”€ data_final.xlsx              # Donnees consolidees (10 185 entreprises)
    β”œβ”€β”€ geoloc_results.csv           # Resultats de geolocalisation
    └── data/
        β”œβ”€β”€ parquet/                 # 20 fichiers Parquet (donnees brutes)
        └── xlsx/                    # 20 fichiers Excel (donnees brutes)

✨ Cas d'Usage

🀝

Service Relations Entreprises

  • Identifier les entreprises par secteur d'activite
  • Cibler les entreprises en croissance
  • Obtenir les contacts directs
  • Segmenter par taille et anciennete
πŸ—οΈ

Service Urbanisme

  • Visualiser la concentration geographique
  • Identifier les zones a forte densite
  • Planifier les infrastructures
  • Suivre l'evolution economique

πŸ”— Liens

Voir sur GitHub