Etalab ne produit plus de données SIRENE géocodées https://files.data.gouv.fr/geo-sirene/decommissionnement.txt. Ils renvoient vers les données de l'INSEE : https://www.data.gouv.fr/datasets/geolocalisation-des-etablissements-du-repertoire-sirene-pour-les-etudes-statistiques
Cependant les données SIRENE géolocalisées de l'Insee soulèvement quelques questions :
- les données de géolocalisation sont publiées dans un dataset séparé des données SIRENE, et ce dataset n'est mis à jour que le 20 du mois (les données SIRENE sont màj le 1er)
- les données de géolocalisation de l'Insee s'appuient sur les adresses du RIL et non sur celles de la BAN, qui a pourtant fait ses preuves
- le logiciel de géocodage de l'Insee, Geoloc, n'est pas open source, donc difficile de savoir comme il fonctionne
Géoplateforme propose une API de géocodage.
Résultat, voici le process cible pour un géocodage mensuel des établissements :
Tous les mois (flow/sirene_preprocess)
- Si
siret_latlong.parquet n'existe pas, télécharger decp.parquet depuis data.gouv.fr et le créer (extraction des pairs SIRET/coordonnées existantes)
- Téléchargement des données SIRENE officielles de l'Insee (~ 3 million de lignes)
- Sélection des colonnes utiles et autres traitements (flow sirene_preprocess)
- Jointure avec
siret_latlong.parquet
- Création de
sirene_YYYY-MM.parquet
Tous les jours (flow/decp_processing)
- Si
siret_latlong.parquet n'existe pas, télécharger decp.parquet depuis data.gouv.fr et le créer (extraction des pairs SIRET/coordonnées existantes)
- Jointure des DECP avec
sirene_YYYY-MM.parquet (pour avoir les colonnes SIRENE et certaines coordonnées)
- Jointure avec
siret_latlong.parquet (pour avoir les coordonnées récupérées depuis le 1er du mois)
- Extraction des SIRET sans coordonnées
- Géocodage avec géoplateforme (pour les éventuels nouveaux établissements depuis la veille)
- Màj de
siret_latlong.parquet avec les nouvelles coordonnées
Etalab ne produit plus de données SIRENE géocodées https://files.data.gouv.fr/geo-sirene/decommissionnement.txt. Ils renvoient vers les données de l'INSEE : https://www.data.gouv.fr/datasets/geolocalisation-des-etablissements-du-repertoire-sirene-pour-les-etudes-statistiques
Cependant les données SIRENE géolocalisées de l'Insee soulèvement quelques questions :
Géoplateforme propose une API de géocodage.
Résultat, voici le process cible pour un géocodage mensuel des établissements :
Tous les mois (flow/sirene_preprocess)
siret_latlong.parquetn'existe pas, télécharger decp.parquet depuis data.gouv.fr et le créer (extraction des pairs SIRET/coordonnées existantes)siret_latlong.parquetsirene_YYYY-MM.parquetTous les jours (flow/decp_processing)
siret_latlong.parquetn'existe pas, télécharger decp.parquet depuis data.gouv.fr et le créer (extraction des pairs SIRET/coordonnées existantes)sirene_YYYY-MM.parquet(pour avoir les colonnes SIRENE et certaines coordonnées)siret_latlong.parquet(pour avoir les coordonnées récupérées depuis le 1er du mois)siret_latlong.parquetavec les nouvelles coordonnées