Pipeline de donnees pour centraliser les donnees publiques urbaines de Paris. Projet realise durant mon stage chez Aptero.
Geotir est un POC (Proof of Concept) de pipeline de donnees concu pour un partenaire client d'Aptero. L'objectif : centraliser les donnees publiques de la ville de Paris pour l'aide a la decision immobiliere. Le systeme extrait, formate, enrichit et stocke les donnees dans une base PostgreSQL.
ββββββββββββββ Collect ββββββββββββββ Format ββββββββββββββ
β call_api.pyβ βββββββββββ> β processing β βββββββββββ> β convert_df β
ββββββββββββββ ββββββββββββββ ββββββ¬ββββββββ
βΌ
PostgreSQL
(bdd.py)
| Fichier | Description |
|---|---|
call_api.py |
Recuperation des donnees via API ou fichiers JSON locaux |
processing.py |
Normalisation de la structure des donnees (noms de champs, coordonnees) |
convert_df.py |
Conversion en DataFrames Pandas et ajout de metadonnees |
bdd.py |
Insertion dans PostgreSQL et creation des tables |
main.py |
Orchestration de tous les modules et planification |
# Build de l'image
docker build -t projet_geotier .
# Execution du pipeline
docker run --env-file .env projet_geotier
# Push vers Docker Hub
docker tag projet_geotier monregistry/projet_geotier:latest
docker push monregistry/projet_geotier:latest
Le projet inclut un fichier Tableau (geotir_uat.twbx) pour la visualisation des donnees :