Open Data Cartographié : La Carte des Fromages Français

Cette semaine, OpenDataSoft met les petits plats dans les grands. Après s’être penché sur le Conseil de Paris, les données ouvertes de la SNCF, l’état de l’Open Data en 2014 et l’Égalité Homme-Femme, OpenDataSoft poursuit sa série L’Open Data de la Semaine avec de l’Open Data cartographié. Au menu : une carte des fromages français, interactive et en données ouvertes. À table !

Cartographie des Fromages Français en Open Data

338 fromages géolocalisés pour planifier votre prochaine sortie gastronomique

Extraire les Données : Scrapper Wikipedia avec Python

À peine l’idée de cet Open Data cartographié des fromages français naissait que la phrase du Général de Gaulle nous revenait en mémoire :

« Comment voulez-vous gouverner un pays où il existe 258 variétés de fromage ? »

Avouons-le, la perspective de devoir créer un tel jeu de données à la main n’a pas immédiatement séduit l’équipe.

Pour complexifier la tâche, nous avions trois impératifs :

  • avoir une liste de fromage la plus exhaustive possible
  • chaque fromage devait être associé à son département de production pour en faciliter la géolocalisation
  • réunir un maximum de photographies de fromages

Nous avons tout d’abord cherché une liste exhaustive. Après plusieurs essais infructueux, nous avons trouvé la Liste des spécialités fromagères françaises. Les fromages y sont répartis par département. Cette hiérarchie a facilité le parsing et le scrapping de la page.

Open Data Cartographié

C’est Clément, membre de l’équipe R&D, qui a préparé la première mouture du jeu de données. Il a utilisé la librairie Python Beautiful Soup pour parser et scrapper la page Wikipédia. En utilisant les balises HTML et CSS de la page, il a pu exporter un CSV contenant :

  • le nom du fromage associé à son département de production
  • l’image du fromage quand elle était disponible sur Wikipédia
  • le type de lait entrant dans sa production
  • l’URL des pages Wikipédia, en français et en anglais (quand ces dernières existaient)

Cette première version du jeu de données a été importée dans un logiciel de tableur pour un nettoyage léger. Quelques fromageries s’étaient glissées parmi les fromages et les types de lait n’étaient pas harmonisés. Ainsi :

  • « Lait cru de vache » est devenu « vache »
  • « Vache Montbéliarde » est devenu « vache »

Importer les données sur une plate-forme de data clé-en-main

Après avoir harmonisé les données, nous avons chargé la liste des fromages français sur notre portail de démo.

Pour géolocaliser simplement ces données, nous avons utilisé l’un de nos processeurs natifs : joindre un jeu de données.

Open Data Cartographié : Joindre des Jeux de Données Ouvertes
Le processeur « Joindre un jeu de données »

Ce processeur nous a permis de transformer le nom des départements de notre jeu de données en coordonnées géographiques grâce aux informations contenues dans un second jeu de données. Les nouvelles informations ont été ajoutées automatiquement.

La plate-forme a également converti les URLs des photographies de fromages en une galerie d’images dynamique. Cette dernière est intégrable et partageable en quelques clics.

La galerie des 338 spécialités fromagères françaises.

Créer une carte interactive rapidement

Pour générer notre carte, nous avons utilisé notre outil Cartograp