Data lineage : pourquoi et comment le mettre en œuvre en entreprise ?

Gouvernance des données

Un data lineage précis est nécessaire pour bien valoriser ses données ; mais en quoi consiste le data lineage ? Il fournit des informations sur le déplacement et la transformation des données dans tout le système d’information de l’entreprise. Établir le data lineage apporte une vue d’ensemble de la façon dont les processus transforment les données.

La mise en œuvre du data lineage est également essentielle pour suivre les données sensibles et vérifier leur exactitude. En conséquence, tous les secteurs sont concernés : banque, assurance, finance, santé, énergie, luxe, industrie, etc. Tous ont intérêt à optimiser leurs flux de données (data flows en anglais) afin de tirer le meilleur de leurs analyses des données et prendre l’avantage sur leurs concurrents.

Qu’est-ce que le data lineage ?

Le data lineage – parfois appelé cheminement des données, traçabilité des données ou encore lignée des données – décrit l’ensemble du cycle de vie des données tout au long de la chaîne de traitement de celles-ci au sein de l’entreprise : de l’origine des données à leurs usages, sans oublier l’archivage et l’effacement.

Le data lineage est souvent représenté par un graphe permettant de visualiser le cheminement des données d’un traitement à l’autre.

Les outils de data lineage permettent notamment de visualiser les processus d’extraction, de chargement et de transformation des données, aussi appelés ETL (Extract Transform Load), ou plus récemment ELT (Extract Load Transform) depuis l’avènement du big data.

Pour des résultats de qualité, les entreprises ont besoin de visualiser le parcours des données et la façon dont elles se déplacent ; atteignent une destination particulière ou sont consommées. Si le suivi du data lineage n’est pas effectué, cela peut avoir un impact négatif sur les analyses et les applications en aval.

Le data lineage est crucial pour la prise de décisions et repose sur des informations précises : il permet aux utilisateurs – qu’ils soient business ou techniques – de s’assurer de l’exactitude des données.

En raison l’essor du numérique, nous faisons face à une explosion du volume et de la variété des données (big data) ; or les entreprises peuvent heureusement tenir la cadence en automatisant leur data lineage pour améliorer leurs traitements et leurs flux de données. Mais quel est le lien entre flux de données et data lineage ?

Le data lineage fournit une vue d’ensemble de la façon dont vos données circulent dans le système d’information ; tandis que le flux de données est le mouvement des données d’un point A à un point B. Un flux de données est décrit par une source, une destination et d’éventuels processus de transformation survenant entre la source et la destination. En réunissant l’ensemble des flux de données du système d’information, nous pouvons mieux comprendre comment l’information circule, comment elle est traitée et quels problèmes peuvent survenir.

Quels sont les composants des flux de données ?

Le data lineage est composé des composants suivants :

Source de données (data source en anglais) : ensemble de jeux de données sources ; une source de donnée pouvant être alimentée par d’autres sources de données.
Processus (process en anglais) : activités menées sur les données ; traitements automatiques ou manuels.
Stockage de données (data storage en anglais) : stockage physique d’une source de données ; exemple : base de données, data lake, data hub, data warehouse, data mart…
Flux de données (data flow en anglais) : comment les données se déplacent, dans quelle direction, qui les envoie, qui les reçoit.

Toutes les entreprises qui veulent maîtriser la gestion des données doivent comprendre les flux de données :

Au niveau le plus fin pour les utilisateurs techniques comme les data scientists, data engineers, data custodians, consultants business intelligence…
Au niveau global pour les utilisateurs métiers comme les analystes, les chief data officers et les dirigeants d’entreprises.

L’importance des flux de données

Les flux de données sont un outil crucial en gestion des données, permettant aux entreprises de comprendre les interconnexions entre les éléments de données dans le système d’information. Les diagrammes de flux de données (DFD) sont parfois utilisés pour représenter visuellement les processus qui capturent, manipulent, stockent et distribuent les données dans une entreprise.

En comprenant comment les informations circulent dans leurs systèmes, les organisations augmentent leur efficacité et réduisent leurs risques opérationnels, tout en dégageant de nouvelles opportunités de business (voir les bénéfices de la gouvernance des données).

Connaitre les flux de données permet de répondre à des questions telles que :

Quelle est la source de ces données ?
Quand ont-t-elles été enregistrées ?
Quels départements exploitent ces données ?
Quels systèmes utilisent ces données ? Quels systèmes sont impactés si je modifie ou supprime ces données ? Bien utile pour les migrations !

Les entreprises qui veulent être data centric – efficaces et évolutives en matière de valorisation des données – doivent pouvoir répondre rapidement à ces questions ; or c’est justement possible grâce au data lineage.

Qu’est-ce que la provenance des données ?

Le data lineage et la provenance des données (data provenance en anglais) sont liés ; mais différents :

Le data lineage répond à la question : d’où vient cette donnée ?
La data provenance répond aux questions : pourquoi et comment cette donnée a-t-elle été collectée ? Est-elle créée ou copiée ? Comment a-t-elle été créée ? Quelle est l’historique de ses valeurs ?

Data provenance

En somme, la provenance des données fournit la documentation historique des données, leur origine et leur méthode de création. Elle permet aux métiers de s’assurer de la véracité des informations portées par un ensemble de données.

Au sein d’un catalogue de données, le data lineage apparait entre les sources de données (sous la dénomination de data process) ; tandis que la data provenance est au niveau des métadonnées des sources de données.

Quel est le lien entre data lineage et classification des données ?

Comme le terme l’indique, la classification des données consiste à classer les données dans des catégories en fonction de leurs caractéristiques. L’établissement d’une classification des données fait partie intégrante des politiques et procédures de sécurité et conformité des données, elles-mêmes régies par la gouvernance des données. La classification des données est d’autant plus nécessaire lorsqu’il s’agit de traiter des quantités colossales d’information.

En outre, elle constitue une base solide pour les méthodes de sécurité et conformité des données en donnant un aperçu de l’endroit où les informations sensibles ou réglementées sontstockées (stockage des données).

De surcroît, la classification des données augmente la productivité des utilisateurs par la recherche rapide, élimine les informations redondantes et réduit les coûts de stockage et de maintenance.

Le data lineage facilite grandement la classification des données. En effet, partant d’une donnée déjà classifiée, vous pouvez en déduire que toute donnée en amont et en aval de cette donnée possède la même classification.

Par exemple, imaginons que le champs « date de naissance » d’une table corresponde à la date de naissance de vos clients et qu’il soit classé « donnée personnelle » pour être géré par le RGPD : dans ce cas, le data lineage permet de classer « donnée personnelle » tous les champs à l’origine et à destination de ce champ. Vous l’aurez compris, le data lineage et la classification sont des outils très puissants pour mener à bien des projets de conformité ou sécurité des données.

Bénéfices du data lineage pour l’IT

Étudions à présents les cas d’usages du data lineage pour les équipes de gestion des données et la direction des services informatiques (DSI) :

Identifier les causes des erreurs

Les gestionnaires de données peuvent compter sur le data lineage pour suivre le cheminement des données et découvrir la cause des erreurs les plus subtiles. À l’heure du big data, les chaînes de traitements sont devenues si complexes qu’il est devenu quasiment impossible de les déboguer sans data lineage.

Faire des analyses d’impact pour prévenir les pannes

Des manipulations ou des modifications peuvent impacter négativement les données en cours de traitement. Dans ces cas-là, mieux vaut prévenir que guérir : l’étude préalable du data lineage permet de mieux préparer les opérations d’évolution et de maintenance et de protéger les applications en production de pannes dont les conséquences peuvent entrainer des pertes financières importantes.

Préparer les migrations de données

Les migrations de données permettent le transfert de données d’un lieu de stockage à un autre. Le data lineage rend le processus de migration plus facile et moins risqué en fournissant tous les détails du cycle de vie des données.

Note : d’autres outils sont également utiles comme le data profiling.

Réduire la dette des données

Le data lineage améliore la capacité des équipes à discerner quels ensembles de données sont obsolètes, inexistants ou en vigueur. En réduisant la quantité d’information inutilement conservée, les organisations peuvent accélérer la mise en œuvre de leurs projets data. Par conséquent, le data lineage est un élément crucial de la réduction de la dette liée aux données.

Modélisation Data Vault

Depuis le milieu des années 2010, les architectures big data – data hub central alimenté par de nombreuses sources de données périphériques – et l’augmentation des exigences de conformité ont entrainé un regain d’intérêt pour la modélisation dite Data Vault.

Cette norme comporte notamment un système de clés de liens – un lien correspondant à un flux de données dans cette norme – permettant ainsi de suivre le chemin des données à travers le temps et les différentes transformations, c’est-à-dire le data lineage. Cela rend la modélisation Data Vault particulièrement utile pour les audits de conformité et la gestion de la qualité des données.

Les professionnels certifiés Data Vault 2.0 par la Data Vault Alliance sont par ailleurs très recherchés sur le marché de l’emploi ; or Data Éclosion en compte parmi ses effectifs.

Bénéfices du data lineage pour le business

Data lineage et business intelligence

Du point de vue du business, les données sont souvent perçues comme des indicateurs clé de performance (key performance indicators ou KPI en anglais), exposés dans des rapports visuels synthétiques.

Généralement conçus par des développeurs en business intelligence (lire aussi notre article sur les consultants BI), ces rapports sont lus et analysés par des personnes du métier et des décideurs qui n’ont aucune compétence technique pour comprendre comment ils sont construits et d’où proviennent les données qui les composent. Jusqu’à quel point peut-on faire confiance aux informaticiens ? Quand bien même leur honnêteté n’est pas mise en doute, comment être sûr qu’il n’y a pas de malentendus sur l’origine des indicateurs affichées à l’écran ?

Le data lineage apporte justement toute la lumière sur l’origine et le mode de calcul des indicateurs. Un bon data lineage doit être visuel et accessible aux utilisateurs non techniques.

Améliorer la qualité des données

Connaitre l’origine, la provenance et les traitements de données contribuent clairement à améliorer la qualité des données. En effet, il est alors beaucoup plus facile de comprendre les causes de non-qualité et d’y remédier.

Pour les métiers, la qualité des données est extrêmement importante pour avoir une information fiable afin de prendre les meilleures décisions stratégiques. À l’inverse, des données de mauvaise qualité entrainent des erreurs de décision, des pertes de clientèle et une baisse du chiffre d’affaires.

Six dimensions de la qualité des données

Gouvernance des données et data lineage

Comme nous l’expliquons dans notre article, la gouvernance des données permet de gérer les données comme un actif, grâce à des politiques de données effectives parmi lesquelles : sécurité, conformité, qualité, documentation, etc.

Le catalogue des données est l’outil principal de la gouvernance des données et l’une de ses fonctionnalités les plus importantes est bien entendu le data lineage.

Mettre en place le data lineage

Quelles sont les techniques de data lineage ?

Voici quelques techniques permettant d’établir un data lineage :

Data lineage manuel

La première solution qui vient à l’esprit est de décrire le data lineage à la main, en étudiant le système d’information actuel et en renseignant des feuilles Excel ou un espace wiki tel que SharePoint ou Confluence.

Cette solution est souvent effectuée par des consultants faisant une cartographie du système d’information ou des consultants réalisant une mise en conformité (RGPD par exemple).

Astuce pour les data stewards qui réalisent un data lineage à la main

Si on documente le data lineage dans une documentation de type wiki, on peut prévoir une section « source de données » au niveau de chaque source. Pour chaque jeu de donnée, le plus simple est alors de renseigner uniquement la liste des sources plutôt que les sources et les destinations. En effet, ce sera au data steward de chaque destination de déclarer quelles sont ses sources. En d’autres termes, si l’on veut savoir où est copié un jeu de donné particulier (quelles sont les destinations de la donnée), il suffira de chercher tous les jeux de donnés où le jeu de donné en question figure parmi ses sources de données

Source de donnée	Jeux de données importés
ERP	Comptes clients, factures
Application de sondages en ligne	Sondages
PIM	Référentiel des produits
Formulaire contact client du site web	Leads qualifiées

Exemple : sources de données du CRM

Inconvénients du data lineage manuel

Si elle requiert des outils simples, l’approche manuelle n’est cependant pas recommandée. En effet, lorsqu’il y a des dizaines de milliers de champs et de flux, le travail de documentation manuel est immense, d’autant plus que les systèmes évoluent sans cesse. Il est quasiment impossible d’obtenir un inventaire exhaustif, sans compter que c’est un travail rébarbatif et sujet à erreurs.

Le data lineage manuel est souvent réalisé lors de missions ponctuelles, mais c’est un travail qu’il faudra recommencer de façon récurrente si l’on veut rester conforme au fur et à mesure que les systèmes et les réglementations évoluent.

C’est pourquoi il est recommandé d’utiliser des outils automatiques.

Data lineage des ETL

Étant donné que les ETL déplacent et transforment les données dans le système d’information, une première idée serait de les utiliser pour construire le data lineage.

Certains outils comme Talend Open Studio ont bien une interface graphique pour représenter leurs flux de données ; mais les personnels qui y accèdent sont avant tout techniques. De plus, d’autres outils, comme ceux open source du big data, n’ont pas du tout de représentation visuelle du data lineage. Pour finir, un système d’information n’utilise généralement pas qu’une technologie mais plusieurs. C’est pourquoi utiliser les ETL n’est pas une approche viable pour un data lineage global et accessible à tous – IT et business.

Data lineage du catalogue de données

Les catalogues de données sont intuitifs et comblent le fossé entre vos bases de données locales et vos centres de données. Les catalogues de données vous permettent d’organiser soigneusement les données techniques et business à l’aide de la classification et du glossaire.

Et surtout, ils sont capables d’établir automatiquement le data lineage dans une architecture de données hétérogène. Véritablement agnostiques d’une technologie en particulier, ils sont l’outil essentiel de la gouvernance des données et c’est pourquoi nous les recommandons à tous nos clients qui souhaitent une gouvernance des données efficace.

Exemple de data lineage dans le catalogue de données Alation. Source : Alation.com, 2023.

Exemple de data lineage dans le catalogue de données DataGalaxy. Source : Datagalaxy.com, 2023.

Comment mettre en place un programme de data lineage ?

Notons que nous parlons de programme et non de projet de data lineage. En effet, s’il est possible – mais peu recommandé – d’établir un data lineage pour un besoin en particulier, il est surtout recommandé d’établir et maintenir le data lineage sur le long terme, au sein d’un data catalog.

Le data lineage s’inscrit donc dans un programme de gouvernance des données. Toutefois, pour justifier le cout d’un tel programme, il est parfois nécessaire de choisir un projet pilote qui sera l’occasion de démontrer la plus-value de la gouvernance des données pour tous les autres projets de l’entreprise. À Data Éclosion, nous sommes spécialistes sur le sujet : n’hésitez-pas à nous contacter pour en discuter.

Récapitulation

Le data lineage est nécessaire pour comprendre le flux de données, gérer les risques et améliorer l’analyse d’impact des données d’une organisation. Prendre des décisions basées sur les données est essentiel pour les entreprises. De surcroît, la compréhension du parcours des données est essentielle pour améliorer leur qualité. Avec ces informations à l’esprit, les entreprises peuvent être sûres que les données avec lesquelles elles travaillent sont exactes et fiables. Cela les aide également à identifier les problèmes potentiels ou les incohérences dans les données et à développer de meilleures stratégies. Les équipes de gouvernance des données doivent comprendre l’importance du data lineage et son lien avec la cybersécurité et la protection des données personnelles. Le data lineage aide les organisations à protéger leurs données et à se conformer à l’évolution des réglementations. Cela garantit la longévité de leurs infrastructures de données et renforce leurs contrôles de sécurité. En suivant le data lineage, les données sont traitées de la meilleure façon qui soit : à vous de jouer !

Cookie	Durée	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.