Skip to content

Utiliser les données SIRENE de l'Insee mais le géocodage de géoplateforme #175

@ColinMaudry

Description

@ColinMaudry

Etalab ne produit plus de données SIRENE géocodées https://files.data.gouv.fr/geo-sirene/decommissionnement.txt. Ils renvoient vers les données de l'INSEE : https://www.data.gouv.fr/datasets/geolocalisation-des-etablissements-du-repertoire-sirene-pour-les-etudes-statistiques

Cependant les données SIRENE géolocalisées de l'Insee soulèvement quelques questions :

  • les données de géolocalisation sont publiées dans un dataset séparé des données SIRENE, et ce dataset n'est mis à jour que le 20 du mois (les données SIRENE sont màj le 1er)
  • les données de géolocalisation de l'Insee s'appuient sur les adresses du RIL et non sur celles de la BAN, qui a pourtant fait ses preuves
  • le logiciel de géocodage de l'Insee, Geoloc, n'est pas open source, donc difficile de savoir comme il fonctionne

Géoplateforme propose une API de géocodage.

Résultat, voici le process cible pour un géocodage mensuel des établissements :

Tous les mois (flow/sirene_preprocess)

  1. Si siret_latlong.parquet n'existe pas, télécharger decp.parquet depuis data.gouv.fr et le créer (extraction des pairs SIRET/coordonnées existantes)
  2. Téléchargement des données SIRENE officielles de l'Insee (~ 3 million de lignes)
  3. Sélection des colonnes utiles et autres traitements (flow sirene_preprocess)
  4. Jointure avec siret_latlong.parquet
  5. Création de sirene_YYYY-MM.parquet

Tous les jours (flow/decp_processing)

  1. Si siret_latlong.parquet n'existe pas, télécharger decp.parquet depuis data.gouv.fr et le créer (extraction des pairs SIRET/coordonnées existantes)
  2. Jointure des DECP avec sirene_YYYY-MM.parquet (pour avoir les colonnes SIRENE et certaines coordonnées)
  3. Jointure avec siret_latlong.parquet (pour avoir les coordonnées récupérées depuis le 1er du mois)
  4. Extraction des SIRET sans coordonnées
  5. Géocodage avec géoplateforme (pour les éventuels nouveaux établissements depuis la veille)
  6. Màj de siret_latlong.parquet avec les nouvelles coordonnées

Metadata

Metadata

Assignees

No one assigned

    Labels

    Projects

    Status

    Backlog

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions