Validateurs

Pour maintenir une information voyageur de qualité, les réutilisateurs de données d’information voyageur ont besoin de sources fiables. Si les données ne sont pas de bonne qualité, l'information donnée à l'utilisateur ne sera pas bonne.

De plus, un jeu de données qui ne respecte pas les spécifications ne sera pas forcément complètement inutile, mais sa réutilisation sera conditionnée à un traitement manuel. Ce traitement manuel peut être plus ou moins compliqué et nécessiter que les réutilisateurs modifient les données, avec le risque de mal corriger ces erreurs.

Pour faciliter la mise en qualité des données, les producteurs et réutilisateurs ont la possibilité de valider des données avant qu'elles soient publiées et ainsi vérifier leur conformité par rapport à un format ou un schéma national. Ces validateurs à la demande sont disponibles depuis l'onglet "Outils" de la plateforme en téléchargeant le fichier ou en renseignant une URL et en sélectionnant le type de fichier à évaluer dans la liste déroulante .

Un rapport de validation détaillant les erreurs que peuvent contenir les ressources est également disponible dans les métadonnées de chaque ressource en cliquant sur le nombre d'erreurs détectés.

Ce rapport permet :

  • aux réutilisateurs de connaître facilement le niveau de qualité du jeu de données ;

  • aux producteurs d'avoir des pistes d'amélioration du jeu de données.

Pour l'instant, il n'y a pas de validateurs ni de rapport de validation pour les fichiers Netex et les flux SIRI.

Le validateur GTFS

Les erreurs sont caractérisées suivant leur niveau d'importance :

  • "Échec irrécupérable" : les données ne respectent pas la spécification GTFS, les réutilisations automatiques de ces données vont être sérieusement compromises ;

  • "Erreur" : les données contiennent des erreurs (coordonnées de stations non valides, identifiant manquants,...). La réutilisation de ces données risque d’être compliqué.

  • "Avertissement" : Ce ne sont pas forcément des erreurs, mais plutôt des éléments qui méritent d'être analysés. Cela peut être des temps de trajet d'un bus nuls, des stations en doublons, des coordonnées manquantes, ...

  • "Information" : de simples informations sur le jeu de données. Cela peut etre une vitesse de bus qui semble trop rapide, des stations inutilisées, ....

Pour faciliter la réutilisation des données, il est primordial de ne pas avoir ni “Échecs irrécupérables” ni “Erreurs”. Les “Avertissements” ne sont pas forcément rédhibitoires pour des données de bonne qualité, si leur nombre reste limité.

Le code de ce validateur est ouvert, n’hésitez pas à demander des précisions ou à participer à l’ajout de nouvelles règles.

Dernière mise à jour