Data Processeurs OpenDataSoft

Rappelez-vous : la semaine dernière, nous vous avons présenté de nouvelles fonctionnalités côté front-end et API.

Aujourd’hui, nous sommes heureux de vous faire découvrir notre toute nouvelle chaîne de traitement des données qui met à disposition de nos utilisateurs un ensemble de fonctionnalités pour préparer et enrichir des données avant leur publication.

Processeurs OpenDataSoft

Elle est composée de “processeurs“, faciles à utiliser tels quels, et qui permettent également la rédaction d’expressions avancées et complexes (formules de type Excel, expressions régulières…). Les processeurs peuvent être combinés entre eux, construisant ainsi un puissant pipeline de transformation. Et, comme toujours avec notre interface de publication, la prévisualisation du résultat final en temps réel permet d’expérimenter de manière sécurisée, sans aucune conséquence sur les données déjà publiées.

Ces nouvelles fonctionnalités ont pour but de couvrir suffisamment de besoins pour enlever tout nécessité d’utiliser un ETL traditionnel avant la publication des données.

Voici quelques exemples de préparation et d’enrichissement de données qui peuvent être effectués grâce à ces processeurs:

  • transformation d’adresses en coordonnées géographiques (= géocodage) afin d’afficher le jeu de données sur une carte
  • transformations textuelles afin de rendre les valeurs plus cohérentes (normalisation, casse, espaces en trop…)
  • calcul de valeurs numériques via l’utilisation d’expressions mathématiques
  • séparation, jointure, remplacement de valeurs texte ; utilisation d’expressions régulières pour extraire des parties d’une expression
  • formatage et normalisation de valeurs de dates
  • changement de systèmes de données géographiques
  • ignorer des lignes en fonction de certains critères (par exemple, pour ne pas publier des villes de moins de 30000 habitants)
  • création de nouvelles lignes à partir d’une seule en utilisant des formules de transposition
  • jointure croisée de lignes avec un autre jeu de données (cf. jointures de bases de données), par exemple pour enrichir des lignes avec des données provenant d’un jeu de données référent (ceci permet également de croiser des données avec des jeux de données publics déjà hébergés sur notre plate-forme).

Et, bonne nouvelle, toutes ces étapes sont sauvegardées au fur et à mesure, ce qui signifie qu’il n’est pas nécessaire de tout recommencer chaque fois que les données changent.

Dans la courte vidéo ci-dessous, vous pourrez voir en action trois différents exemples de processeurs OpenDataSoft utilisés pour enrichir des données avant leur publication:

Nous mettons ces nouvelles fonctionnalités à disposition de nos utilisateurs de manière graduelle ; nous serons donc ravis de vous aider à prendre en main les processeurs au cours de sessions pratiques. N’hésitez pas à nous le demander 🙂

Et comme nous augmentons la liste des processeurs en continu, vous pouvez aussi nous faire signe si vous pensez que nous devrions en créer de nouveaux.