Data Experience Makers Live 2024 - Le rendez-vous incontournable des leaders data revient le 7 mars prochain !

Je m'inscris
Actualités

Comment nous avons listé +2600 portails pour la communauté open data

Cette semaine, Opendatasoft a retroussé ses manches et vous propose un open data de la Semaine des plus spéciaux : une liste réunissant plus de 2600 portails de données ouvertes à travers le monde. Mais avant d’expliquer notre processus, un peu de contexte:

Brand content manager, Opendatasoft
Voir tous ses articles

Cette semaine, Opendatasoft a retroussé ses manches et vous propose un open data de la Semaine des plus spéciaux : une liste réunissant plus de 2600 portails de données ouvertes à travers le monde. Mais avant d’expliquer notre processus, un peu de contexte: Lorsque vous développez une solution open data, vous entendez souvent la même question : “Où puis-je trouver des données propres et utilisables ?”

En parallèle, nous sommes d’avides consommateurs de données ouvertes. Nous les recueillons pour créer des effets de réseaux inédits ou vous divertir avec notre série l’Open Data de la Semaine.

L’idée de créer une ressource unifiée rassemblant tous les portails de données ouvertes du monde a rapidement émergé. Rendre cette ressource accessible en open data s’inscrivait naturellement dans le prolongement de ce projet. Quelques gifs du Docteur Denfer plus tard, nous amorcions le projet Open Data Inception. Après la carte des fromages français, l’état de l’open data en 2014 et les retards du TGV à l’épreuve de l’open data, Opendatasoft poursuit sa série l’open data de la Semaine avec la liste des 2600 portails de données ouvertes du monde.

Copy to clipboard

La première étape de notre démarche a été évidemment de regarder les projets similaires. Que cela soit OpenGeocode ou DataPortals de l’Open Knowledge Foundation, tous ces projets étaient intéressants et utiles mais aucun n’était parfait. En effet, OpenGeocode est plutôt concentré sur les portails américains (pas de portail open data français par exemple) et les deux ne sont pas évidents à comprendre : y-a-t-il une API ? Peut-on télécharger la totalité des données ? Comment sélectionner une zone sur la carte ? Il y avait aussi des projets sur Github, des réponses sur Quora ou StackExchange listant des données intéressantes. Mais les listes elles-mêmes n’étaient pas structurées et étaient difficiles à réutiliser, sauf en cliquant sur les liens à chaque fois.

Nous avons donc utilisé toutes ces sources, puis avons ajouté à la main les portails open data que nous connaissions qui n’étaient pas sur la liste. La plateforme Opendatasoft permet en effet à ses utilisateurs d’ajouter différentes sources de données pour un même jeu de données. Nous avons donc ajouté les données collectées ainsi que le lien vers un tableur en ligne où nous avons pu ajouter des données à la main en les gardant synchronisées en permanence avec le jeu de données principal.

Lorsque l’on mélange différentes sources de données dans un jeu de données unique, il est important de trouver le dénominateur commun de ces données. Dans ce cas, nous nous sommes limités au nom, à une organisation, au lien vers le portail et à une localisation. Toutes les autres informations étaient compliquées à trouver dans la plupart des cas et nous voulions une liste consistante et utile. Nous avons ensuite utilisé des scripts simples, principalement en Clojure, pour harmoniser les différents champs ; par exemple en capitalisant des champs textuels ou en convertissant les données géographiques dans un même système de coordonnées

Copy to clipboard

Après avoir collecté les données, nous avons procédé à un nettoyage approfondi : coordonnées géographiques manquantes, doublons, coquilles, typologies hétérogènes.

Nous voulions proposer deux possibilités d’interaction avec nos données :

  • Une liste de tous les portails de données ouvertes classés par pays à travers laquelle les internautes pourraient facilement naviguer.
  • Un site indépendant montrant une belle carte sur laquelle les portails open data seraient géolocalisés. Cette interface donnerait ainsi un bon aperçu de la densité de portails de données ouvertes à travers le monde.

Dans la première version de notre liste, les villes, les pays et les organisations étaient situés sur le même niveau de sens. La première étape était donc de créer deux colonnes pour y harmoniser le nom des pays (en français et en anglais).

Cette étape a presque immédiatement soulevé les limites de notre connaissance géopolitique. Devions-nous classer l’Angleterre, l’Irlande du Nord et le Pays de Galles sur des lignes différentes ou les inclure dans le Royaume-Uni ? Quid de l’Île de Man qui est une dépendance de la Couronne britannique mais n’appartient administrativement pas au Royaume-Uni ? Afin d’éviter tout débat stérile, nous nous sommes référés à la liste des pays souverains établie par les Nations Unies.

 

Le jeu de données avec les différents pays, coordonnées géographiques…

Notre seconde tâche a été de nettoyer et de compléter les coordonnées géographiques pour chaque portail présent sur la liste. Nous avions un peu plus de 1000 portails de données ouvertes déjà géolocalisés. Nous avons ajouté les coordonnées des 600 autres à la main.

Les portails gérés par les municipalités étaient faciles à cartographier. Mais où placer les portails des Nations Unies ou les portails gérés par des initiatives citoyennes à travers un pays ? Nous avons décidé de les localiser respectivement sur les coordonnées de leurs quartiers généraux et la capitale administrative la plus pertinente. Prenons un exemple. Si un portail est issu d’une initiative citoyenne à travers l’Espagne, il sera localisé à Madrid. Si le portail est celui de la région de la Cantabria, il sera localisé à Santander.

Les dernières étapes ont été de supprimer les doublons et de charger le jeu de données sur notre portail public.

Copy to clipboard

Dans le but de créer une carte interactive en quelques secondes, nous avons chargé le jeu de données sur notre solution open data. La plateforme Opendatasoft reconnaît automatiquement les coordonnées géographiques des portails et place ces derniers sur une carte. Lorsque vous regardez la carte à l’échelle mondiale, les portails sont regroupés en clusters permettant de mieux visualiser la densité de l’offre.

Nous avons customisé le fond de carte et les pointeurs via l’interface d’administration sans utiliser la moindre ligne de code ou la moindre valeur hexadécimale.

Copy to clipboard

L’un des avantages de la plateforme Opendatasoft est sa capacité à générer automatiquement des widgets à partir des données. Grâce à la librairie de widgets open source, vous pouvez construire des tableaux de bord complets en quelques minutes. Vos visualisations sont toujours à jour grâce à l’API.

 

Le code de widget que nous avons copié au sein de notre page HTML.

Notre jeu de données était prêt, notre carte des portails de données ouvertes aussi. Il ne nous restait qu’à développer un site responsive et y intégrer le widget de carte et le widget de recherche pour une exploration des portails de données ouvertes facilitée.

Les deux widgets communiquent l’un avec l’autre. Ainsi, lorsque vous tapez le nom d’une ville dans la barre de recherche, la carte montre automatiquement le résultat de votre requête.

Le site s’articule autour de 25 lignes de codes issues de ce tutoriel. Ni Javascript, ni Python, ni PHP nécessaires. Just un simple surfaçage en HTML et CSS. Tout le comportement de recherche et de restitution est géré par les widgets.

Vous voulez utiliser les widgets Opendatasoft ? Lisez notre documentation et nos tutoriels

Copy to clipboard

Les quelques chiffres que nous avons appris en faisant cette liste :

  • Plus de 200 pays ont un espace dédié aux données ouvertes. Qu’il s’agisse de portails gérés par des initiatives citoyennes, des administrations…
  • Les États-Unis regroupent presque 500 portails open data : de la ville aux organisations internationales.
Copy to clipboard

Si notre but était de constituer une ressource exhaustive et unifiée de tous les portails de données regroupant des données ouvertes, la liste n’est en rien définitive.

Nous serons ravis d’avoir des retours afin d’améliorer continuellement cette liste. URLs inactives, nouveaux portails, portails que nous aurions oubliés… Nous espérons que cette ressource sera utile à la communauté open data.

Nous ajouterons aussi d’autre sources qui ne sont pas de l’open data per se : dumps de données, repositories GitHub.

Nous avons oublié votre portail ? Vous avez trouvé une URL inactive ? Envoyez-nous un message via le formulaire ci-dessous ou via Twitter. Nous espérons que vous aimerez la liste et la carte autant que nous avons aimé les faire. Le jeu de données est accessible ici.


Plus d'articles
Métadonnées : pourquoi sont-elles aussi importantes que les données ? Data intelligence et reporting
Métadonnées : pourquoi sont-elles aussi importantes que les données ?

Apprenez-en plus sur l’importance des métadonnées pour gérer efficacement les grands volumes de données présents sur les portails data des organisations et encourager leur démocratisation.

Opendatasoft : une solution plébiscitée par ses clients pour ses fonctionnalités et l’accompagnement ! Produit
Opendatasoft : une solution plébiscitée par ses clients pour ses fonctionnalités et l’accompagnement !

Pour mieux comprendre quelles sont les forces et les axes de progression de notre produit et de notre accompagnement, nous interrogeons annuellement nos clients via une enquête de satisfaction. Découvrez les résultats !

La gouvernance des données dans les solutions Cloud Tendances
La gouvernance des données dans les solutions Cloud

La gouvernance des données est essentielle pour garantir des données fiables, dignes de confiance et accessibles par les bons utilisateurs, et ainsi permettre aux entreprises de devenir véritablement data-centric. S'assurer de la bonne gouvernance des données présentes sur le Cloud pose de nouveaux défis en matière de contrôle, de sécurité et de conformité.

Métadonnées : pourquoi sont-elles aussi importantes que les données ? Data intelligence et reporting
Métadonnées : pourquoi sont-elles aussi importantes que les données ?

Apprenez-en plus sur l’importance des métadonnées pour gérer efficacement les grands volumes de données présents sur les portails data des organisations et encourager leur démocratisation.

Opendatasoft : une solution plébiscitée par ses clients pour ses fonctionnalités et l’accompagnement ! Produit
Opendatasoft : une solution plébiscitée par ses clients pour ses fonctionnalités et l’accompagnement !

Pour mieux comprendre quelles sont les forces et les axes de progression de notre produit et de notre accompagnement, nous interrogeons annuellement nos clients via une enquête de satisfaction. Découvrez les résultats !

La gouvernance des données dans les solutions Cloud Tendances
La gouvernance des données dans les solutions Cloud

La gouvernance des données est essentielle pour garantir des données fiables, dignes de confiance et accessibles par les bons utilisateurs, et ainsi permettre aux entreprises de devenir véritablement data-centric. S'assurer de la bonne gouvernance des données présentes sur le Cloud pose de nouveaux défis en matière de contrôle, de sécurité et de conformité.