Les données, comme tous les actifs, doivent être inventoriées dans ce que nous appelons un catalogue de données. Véritable bible pour toute personne travaillant avec la donnée, il est l’outil indispensable d’une gouvernance des données durable au sein de l’organisation. Tout d’abord, nous présentons ses fonctionnalités essentielles, puis ses fonctionnalités secondaires ; enfin nous exposons les différentes manières de le mettre en place avec les solutions disponibles sur le marché.

Fonctionnalités essentielles

Gérer des données sans catalogue des données, c’est comme gérer une bibliothèque sans le catalogue complet des livres. Découvrons tout d’abord les fonctionnalités essentielles d’un catalogue.

Glossaire

Le glossaire contient les concepts et les définitions de termes métiers (business terms en anglais) fréquemment utilisés dans les activités quotidiennes d’une organisation. Il établit le consensus nécessaire pour éviter les erreurs d’interprétation du sens des données.

Il a une structure plus ou moins complexe : 

Les termes sont alors reliés aux métadonnées.

Métadonnées

Les métadonnées sont des données qui servent à décrire d’autres données

Une donnée est une description élémentaire d’une réalité comme par exemple le prénom d’une personne, le prix d’un article, la température d’un lieu, etc. Elle est généralement stockée sous forme numérique depuis l’avènement de l’informatique.

On appelle information le sens d’une donnée. Une donnée élémentaire ne donne guère d’information sans son contexte. Par exemple, la donnée 38 seule est un nombre ; alors que reliée à d’autres données, elle donne une information plus précise : 38 euros est le prix d’un kilogramme de chocolat noir à 75 % au 22 janvier 2022 dans nos enseignes en France.

On appelle généralement attribut, propriété, champ ou colonne… une donnée élémentaire.

Les attributs peuvent être regroupés pour former une entité, un objet ou une ligne

Enfin, une collection d’entités constitue un jeu de données (dataset), lequel peut être lié de différente manière au sein d’une source de données, laquelle peut être modélisée de plusieurs façons : base de données relationnelles, objets, documents, graphes, etc.

Les métadonnées décrivent les données à tous les niveaux de leur organisation : attribut, jeu de données, source de données… et de leur cycle de vie : fichier original, base de données de transactions, entrepôt de données, cube d’analyse, archivage, etc.

À ce stade, il est alors possible de procéder au classement des données afin de savoir quelles politiques on doit leur appliquer.

Classification des données

Tout d’abord, les données peuvent être classées suivant le domaine métier auquel elles appartiennent, comme finance, ventes, ressources humaines, etc.

Ensuite, certaines données nécessitent d’être traitées selon des politiques de données particulières. 

Par exemples :

Les catalogues de données doivent permettre d’attribuer une ou plusieurs classes aux différents actifs de données. Cela se fait généralement à l’aide d’un système d’étiquettes ou tags.

Tout comme pour les termes (business terms) du glossaire, la liste des tags peut être simple ou suivre une hiérarchie ou des relations plus complexes. C’est pourquoi certains catalogues ont fusionné les concepts de termes et de tags.

Data lineage

Le data lineage est une cartographie complète du cheminement et des étapes de transformation des données au sein du système d’information. On peut y suivre la traçabilité ou le cycle de vie complet d’une donnée entre le moment où elle entre dans le système et le moment où elle est archivée ou effacée. 

L’objectif du data lineage est notamment de répondre aux questions suivantes :

Vous pouvez lire notre article sur le data lineage pour tout savoir sur le sujet.

Découverte des données et moteur de recherche

Une des fonctionnalités les plus importantes est évidemment la navigation et le moteur de recherche. Cela permet d’appréhender aisément l’ensemble des actifs de données de l’entreprise.

La navigation est souvent une arborescence des actifs de données par domaines ou source de données.

Le moteur de recherche permet de retrouver instantanément tout type d’élément en fonction d’autres éléments. Il peut s’agir d’attributs, de jeux de données, de personnes (data stewards, data owners, etc.), de tags, de termes, etc.

Les moteurs de recherche utilisent de plus en plus des techniques d’intelligence artificielle qui font apparaître les données les plus pertinentes en se basant sur l’historique et l’apprentissage des habitudes des salariés de l’entreprise.

Les éditeurs de catalogue parlent de découverte des données (data discovery en anglais).

Documentation de la visualisation des données et des autres usages

La finalité des données étant la prise de décision, elle aboutissent généralement dans la visualisation de données. Elles servent également aux applications utilisées par les opérations de l’entreprise.

Les catalogues établissent le lien entre ces usages et les sources de données pour répondre aux questions du genre :

Synchronisation automatique entre le catalogue et les données

Un bon catalogue de données doit être en mesure de se connecter à la majorité des systèmes de l’entreprise : applications, bases de données, entrepôts et ETL afin d’importer et maintenir à jour les métadonnées et le data lineage.

Les éditeurs de catalogue proposent souvent un large choix de connecteurs ou scanners compatibles avec les bases de données et les logiciels les plus courants en entreprise. Lorsque le connecteur n’existe pas, l’entreprise utilisant le catalogue doit pouvoir importer les métadonnées et le lineage de plusieurs façons :

Collaboration

Le catalogue est aussi un espace de collaboration dans lequel il est possible de laisser des commentaires, d’annoter des besoins, de signaler des problèmes et de discuter avec les autres utilisateurs pour partager des informations.

Il intègre également les rôles et responsabilités de la gouvernance des données. En effet, on trouve couramment les rôles suivants : 

Fonctionnalités supplémentaires

En plus de la documentation des actifs de données, certains catalogues ajoutent des fonctionnalités et pour cause :

Workflows

Certains catalogues vont plus loin que l’aspect collaboratif et conversationnel. Ils intègrent également un système de workflow ou de tickets afin d’organiser le travail sur les données : de l’expression des besoins par les data owners à la réalisation d’extractions ou de traitements par les data engineers, en passant par la résolution des problèmes de qualité. Le système de ticket peut être interne ou reposer sur un système existant tel que Jira.

Data profiling

Le data profiling est le processus qui consiste à établir le profil en récoltant des statistiques et des informations.

Contrairement à l’analyse de données qui a une finalité métier, le profiling permet de faire une évaluation technique pour avoir un aperçu de ses caractéristiques : taux de remplissage, minimum, maximum, pourcentage de valeurs uniques, distribution, etc.

Cette fonctionnalité ne requiert généralement pas une lecture complète des données mais un échantillonnage, lequel est réalisé : soit par les bases de données à la demande du catalogue, soit par un module du catalogue situé au plus proche des sources de données. Par conséquent, elle limite l’impact sur les performances et la sécurité.

Gestion de la qualité des données

Au-delà du data profiling, certains catalogues vont bien plus loin et permettent une gestion complète de la qualité des données : mesures, alertes et campagnes de data cleansing.

Evidemment, cela demande d’avoir un accès intégral aux données et comporte plusieurs risques :

C’est pourquoi certains éditeurs ont choisi de ne pas gérer la qualité et de la laisser à des éditeurs dont c’est la spécialité.

Divers

Marché des catalogues de données

Mise à jour en 2022.

Tout d’abord, précisons qu’il est tout à fait possible de réaliser un catalogue à la main dans un logiciel de wiki collaboratif à condition de formaliser à minima le plan et les modèles des pages.

Cette approche a le mérite de commencer à acculturer les salariés et de cadrer les besoins de l’entreprise avant d’investir dans une solution spécifique et plus coûteuse. Toutefois, le choix d’un outil de catalogue s’impose tôt ou tard car la méthode du wiki n’est pas durable sur le long terme. En effet, le nombre et l’évolution trop fréquente des bases de données rendent le travail de maintenance du catalogue trop important et donc trop coûteux pour être réalisé à la main.

Croissance

D’après Mordor Intelligence, le marché du catalogue de données est évalué à 524 millions de dollars dans le monde en 2020. D’après les prévisions, en 2026 il sera de 1 788 millions de dollars, soit une croissance de 340 % par rapport à 2020.

C’est donc un marché en plein essor basé sur une technologie qui évolue rapidement. 

Concurrence

Le marché des catalogues de données contient des d’ores et déjà des dizaines d’acteurs. Il se divise en trois catégories :

Logos des principaux éditeurs de catalogues de données en 2022
Quelques acteurs du marché des catalogues de données en 2022

Conclusion

Voilà une première approche des catalogues de données et de leurs fonctionnalités. C’est l’outil principal de la gouvernance des données à l’heure du big data et de l’intelligence artificielle.

À Data Éclosion, nous avons évalué plusieurs dizaines de solutions et nous possédons une expertise sur les plus importants. Choisir et implémenter un catalogue avec succès demande une bonne connaissance des besoins de l’entreprise et du marché des catalogues. C’est pourquoi il est vivement conseillé de se faire accompagner par des professionnels.