Catalogue de données

Les données, comme tous les actifs, doivent être inventoriées dans ce que nous appelons un catalogue de données. Véritable bible pour toute personne travaillant avec la donnée, il est l’outil indispensable d’une gouvernance des données durable au sein de l’organisation. Tout d’abord, nous présentons ses fonctionnalités essentielles, puis ses fonctionnalités secondaires ; enfin nous exposons les différentes manières de le mettre en place avec les solutions disponibles sur le marché.

Fonctionnalités essentielles

Gérer des données sans catalogue des données, c’est comme gérer une bibliothèque sans le catalogue complet des livres. Découvrons tout d’abord les fonctionnalités essentielles d’un catalogue.

Glossaire

Le glossaire contient les concepts et les définitions de termes métiers (business terms en anglais) fréquemment utilisés dans les activités quotidiennes d’une organisation. Il établit le consensus nécessaire pour éviter les erreurs d’interprétation du sens des données.

Il a une structure plus ou moins complexe : 

  • Tous les termes à plat à la manière d’un dictionnaire.
  • Termes organisés suivant une arborescence ou taxonomie. Exemple : tous les types de prix sont enfants du terme générique prix.
  • Termes organisés selon un graphe de concept ou ontologie. Exemple : les ressources humaines peuvent avoir plusieurs statuts comme interne ou externe et elles peuvent avoir des compétences comme actuaire ou développeur de logiciels… 

Les termes sont alors reliés aux métadonnées.

Métadonnées

Les métadonnées sont des données qui servent à décrire d’autres données

Une donnée est une description élémentaire d’une réalité comme par exemple le prénom d’une personne, le prix d’un article, la température d’un lieu, etc. Elle est généralement stockée sous forme numérique depuis l’avènement de l’informatique.

On appelle information le sens d’une donnée. Une donnée élémentaire ne donne guère d’information sans son contexte. Par exemple, la donnée 38 seule est un nombre ; alors que reliée à d’autres données, elle donne une information plus précise : 38 euros est le prix d’un kilogramme de chocolat noir à 75 % au 22 janvier 2022 dans nos enseignes en France.

On appelle généralement attribut, propriété, champ ou colonne… une donnée élémentaire.

Les attributs peuvent être regroupés pour former une entité, un objet ou une ligne

Enfin, une collection d’entités constitue un jeu de données (dataset), lequel peut être lié de différente manière au sein d’une source de données, laquelle peut être modélisée de plusieurs façons : base de données relationnelles, objets, documents, graphes, etc.

Les métadonnées décrivent les données à tous les niveaux de leur organisation : attribut, jeu de données, source de données… et de leur cycle de vie : fichier original, base de données de transactions, entrepôt de données, cube d’analyse, archivage, etc.

À ce stade, il est alors possible de procéder au classement des données afin de savoir quelles politiques on doit leur appliquer.

Classification des données

Tout d’abord, les données peuvent être classées suivant le domaine métier auquel elles appartiennent, comme finance, ventes, ressources humaines, etc.

Ensuite, certaines données nécessitent d’être traitées selon des politiques de données particulières. 

Par exemples :

  • Les données personnelles sont soumises à une politique de protection des données personnelles comme le RGPD en Europe et le CCPA en Californie…
  • Les données sensibles sont soumises à des politiques de sécurité spécifiques qui vont par exemple restreindre fortement l’accès, voire interdire le stockage dans un cloud non-souverain. Les données classées secret défense ou les données de santé en sont des exemples.

Les catalogues de données doivent permettre d’attribuer une ou plusieurs classes aux différents actifs de données. Cela se fait généralement à l’aide d’un système d’étiquettes ou tags.

Tout comme pour les termes (business terms) du glossaire, la liste des tags peut être simple ou suivre une hiérarchie ou des relations plus complexes. C’est pourquoi certains catalogues ont fusionné les concepts de termes et de tags.

Data lineage

Le data lineage est une cartographie complète du cheminement et des étapes de transformation des données au sein du système d’information. On peut y suivre la traçabilité ou le cycle de vie complet d’une donnée entre le moment où elle entre dans le système et le moment où elle est archivée ou effacée. 

L’objectif du data lineage est notamment de répondre aux questions suivantes :

  • Quelle est l’origine des données ? Et proviennent-elles d’une source fiable ?
  • Ont-elles été transformées, voire altérées ?
  • Transitent-elles vers des applications non sécurisées, c’est-à-dire violant des politiques de données ?
  • Comment sont-elles utilisées et par quelles applications ?
  • Quelle est leur fréquence d’utilisation et leur popularité ?

Vous pouvez lire notre article sur le data lineage pour tout savoir sur le sujet.

Découverte des données et moteur de recherche

Une des fonctionnalités les plus importantes est évidemment la navigation et le moteur de recherche. Cela permet d’appréhender aisément l’ensemble des actifs de données de l’entreprise.

La navigation est souvent une arborescence des actifs de données par domaines ou source de données.

Le moteur de recherche permet de retrouver instantanément tout type d’élément en fonction d’autres éléments. Il peut s’agir d’attributs, de jeux de données, de personnes (data stewards, data owners, etc.), de tags, de termes, etc.

Les moteurs de recherche utilisent de plus en plus des techniques d’intelligence artificielle qui font apparaître les données les plus pertinentes en se basant sur l’historique et l’apprentissage des habitudes des salariés de l’entreprise.

Les éditeurs de catalogue parlent de découverte des données (data discovery en anglais).

Documentation de la visualisation des données et des autres usages

La finalité des données étant la prise de décision, elle aboutissent généralement dans la visualisation de données. Elles servent également aux applications utilisées par les opérations de l’entreprise.

Les catalogues établissent le lien entre ces usages et les sources de données pour répondre aux questions du genre :

  • D’où viennent les données de ce rapport ?
  • A-t-on des rapports redondants ou incohérents ?
  • Cette application utilise-t-elle la source de vérité de ces données maître ?
  • Quelles sont les données les plus utilisées pour la supply chain ?

Synchronisation automatique entre le catalogue et les données

Un bon catalogue de données doit être en mesure de se connecter à la majorité des systèmes de l’entreprise : applications, bases de données, entrepôts et ETL afin d’importer et maintenir à jour les métadonnées et le data lineage.

Les éditeurs de catalogue proposent souvent un large choix de connecteurs ou scanners compatibles avec les bases de données et les logiciels les plus courants en entreprise. Lorsque le connecteur n’existe pas, l’entreprise utilisant le catalogue doit pouvoir importer les métadonnées et le lineage de plusieurs façons :

  • En faisant intervenir les data stewards manuellement :
    • Via l’interface utilisateur.
    • Via des imports de masse par fichiers Excel ou CSV.
  • En étendant les connecteurs via une API grâce à un développement ad hoc.

Collaboration

Le catalogue est aussi un espace de collaboration dans lequel il est possible de laisser des commentaires, d’annoter des besoins, de signaler des problèmes et de discuter avec les autres utilisateurs pour partager des informations.

Il intègre également les rôles et responsabilités de la gouvernance des données. En effet, on trouve couramment les rôles suivants : 

  • Administrateurs : gèrent les habilitations, la configuration et la structure du catalogue.
  • Data owners : responsables métiers des données du domaine de l’entreprise qui les concerne : ressources humaines, ventes, supply chain… Ils approuvent la documentation éditée par les data stewards.
  • Data stewards : importent les métadonnées et le lineage via les connexions ; éditent les termes du glossaire et réalisent le travail de curation, documentation, classification, tout en échangeant avec les autres parties prenantes.
  • Data users : tous les autres utilisateurs qui consultent le catalogue en lecture seule.

Fonctionnalités supplémentaires

En plus de la documentation des actifs de données, certains catalogues ajoutent des fonctionnalités et pour cause :

  • Le catalogue complète les fonctionnalités d’autres produits de son éditeur : ETL, qualité des données, analyse des données, BI
  • Le catalogue est spécialisé dans un domaine particulier comme la conformité ou la sécurité.

Workflows

Certains catalogues vont plus loin que l’aspect collaboratif et conversationnel. Ils intègrent également un système de workflow ou de tickets afin d’organiser le travail sur les données : de l’expression des besoins par les data owners à la réalisation d’extractions ou de traitements par les data engineers, en passant par la résolution des problèmes de qualité. Le système de ticket peut être interne ou reposer sur un système existant tel que Jira.

Data profiling

Le data profiling est le processus qui consiste à établir le profil en récoltant des statistiques et des informations.

Contrairement à l’analyse de données qui a une finalité métier, le profiling permet de faire une évaluation technique pour avoir un aperçu de ses caractéristiques : taux de remplissage, minimum, maximum, pourcentage de valeurs uniques, distribution, etc.

Cette fonctionnalité ne requiert généralement pas une lecture complète des données mais un échantillonnage, lequel est réalisé : soit par les bases de données à la demande du catalogue, soit par un module du catalogue situé au plus proche des sources de données. Par conséquent, elle limite l’impact sur les performances et la sécurité.

Gestion de la qualité des données

Au-delà du data profiling, certains catalogues vont bien plus loin et permettent une gestion complète de la qualité des données : mesures, alertes et campagnes de data cleansing.

Evidemment, cela demande d’avoir un accès intégral aux données et comporte plusieurs risques :

  • Fuites de données et compromission de la qualité, d’autant plus si le catalogue s’exécute dans un cloud à l’étranger…
  • Coût sur les performances dues aux scans fréquents de l’intégralité des données.
  • Risques de corruption ou perte des données si le catalogue rencontre un dysfonctionnement.

C’est pourquoi certains éditeurs ont choisi de ne pas gérer la qualité et de la laisser à des éditeurs dont c’est la spécialité.

Divers

  • Exploration des données – demande une lecture complète
  • Référentiel documentaire sous forme de wiki
  • Intelligence artificielle pour suggérer des noms d’attributs plus business friendly.
  • Représentation des relations entre les tables d’une base de données relationnelle.
  • Gestion des accès des sources aux sources de données depuis le catalogue.
  • Catalogues de données externes : référentiels, open data, etc.

Marché des catalogues de données

Mise à jour en 2022.

Tout d’abord, précisons qu’il est tout à fait possible de réaliser un catalogue à la main dans un logiciel de wiki collaboratif à condition de formaliser à minima le plan et les modèles des pages.

Cette approche a le mérite de commencer à acculturer les salariés et de cadrer les besoins de l’entreprise avant d’investir dans une solution spécifique et plus coûteuse. Toutefois, le choix d’un outil de catalogue s’impose tôt ou tard car la méthode du wiki n’est pas durable sur le long terme. En effet, le nombre et l’évolution trop fréquente des bases de données rendent le travail de maintenance du catalogue trop important et donc trop coûteux pour être réalisé à la main.

Croissance

D’après Mordor Intelligence, le marché du catalogue de données est évalué à 524 millions de dollars dans le monde en 2020. D’après les prévisions, en 2026 il sera de 1 788 millions de dollars, soit une croissance de 340 % par rapport à 2020.

C’est donc un marché en plein essor basé sur une technologie qui évolue rapidement. 

Concurrence

Le marché des catalogues de données contient des d’ores et déjà des dizaines d’acteurs. Il se divise en trois catégories :

  • Les pure players qui ne proposent qu’un catalogue de données et sont spécialisés en gouvernance des données.
  • Les spécialistes de la data pour lesquels le catalogue complète une gamme de produits. On y retrouvera les éditeurs d’ETL, les spécialistes en visualisation des données ou encore, les plateformes data on premises ou dans le cloud…
  • Les éditeurs de logiciels généralistes – généralement géants de la tech – ont tellement de besoins en termes de données qu’ils ont développé leur propre solution pour leur usage interne et leurs clients.
Logos des principaux éditeurs de catalogues de données en 2022
Quelques acteurs du marché des catalogues de données en 2022

Conclusion

Voilà une première approche des catalogues de données et de leurs fonctionnalités. C’est l’outil principal de la gouvernance des données à l’heure du big data et de l’intelligence artificielle.

À Data Éclosion, nous avons évalué plusieurs dizaines de solutions et nous possédons une expertise sur les plus importants. Choisir et implémenter un catalogue avec succès demande une bonne connaissance des besoins de l’entreprise et du marché des catalogues. C’est pourquoi il est vivement conseillé de se faire accompagner par des professionnels.