Master Data Management d’une part, Data Lake d’autre part, nous vous proposons de mieux comprendre ces deux flux de traitement de la donnée et surtout quels sont leurs apports mutuels.
Pascal Dury, VP Data Management chez JEMS Factory nous apporte ses éclairages sur le sujet.
Master Data Management : une gestion de données de référence
Le Master Data Management, ou Gestion des données de référence, est un ensemble de processus permettant d’assurer la qualité des données de référence au sein d’un unique fichier. Le MDM se trouve au cœur de la stratégie data, son objectif est de structurer l’ensemble des données générées, captées et acquises pour pouvoir les exploiter. Il s’agit de données de référence qui sont partagées entre différents systèmes. Certains contrôles sont exercés sur ces données afin de vérifier leur qualité ou leur cohérence avant d’être diffusées au sein de l’entreprise et utilisées par différentes applications.
L’alimentation du Master Data Management peut se faire par des données internes et externes.
Les principales fonctions des outils Master Data Management sont les suivantes :
- acquisition de processus,
- qualité des données,
- pilotage,
- modélisation et gestion des métadonnées,
- stockage et journalisation,
- accès et diffusion,
- administration.
Data lake : une quantité illimitée de données brutes
Un Data lake est un référentiel de données permettant de stocker une quantité illimitée de données structurées ou non structurées, contrairement au Master Data Management qui gère des données structurées uniquement et en quantité limitée.
L’organisation classique d’un data lake est composée de plusieurs couches de stockage : une couche de données sources dans leur format d’origine (raw data), une couche intermédiaire (data tables), une couche de données traitées et prêtes à l’usage (data business views) et une couche d’échanges sortants.
Master Data Management et Data lake, l’équation gagnante du big data
MDM et data lake peuvent fonctionner ensemble : les données de référence qui ont été traitées dans le Master Data Management sont réinjectées dans la troisième couche du data lake. Cela peut devenir complexe à gérer vu le nombre de sources issues de différents systèmes qui sont ajoutées au data lake. Un espace de données certifiées peut être créé au sein du data lake avec une seule source de données : le niveau de qualité de la donnée est alors plus élevé, c’est le data lake gouverné.
Les fonctions du data lake gouverné incluent la traçabilité et la journalisation de manière structurelle. Des fonctionnalités de gouvernance existent aussi. Les désavantages du data lake gouverné découlent de l’absence d’outils. Une gestion de référence est en cours de développement. Un outil complémentaire sera peut-être à ajouter, ainsi qu’une interface utilisateur.
Deux flux de traitement de la donnée sont donc identifiés : les données du data lake et les données de référence du Master Data Management.
Le data lake permet de construire une vision globale avec les méthodes de MDM en adoptant une gestion fine et cohérente de la donnée. Les outils MDM sont capables de gérer n’importe quel type de référentiels produits en restant dans une volumétrie raisonnable, contrairement au data lake qui peut ingérer des données de manière illimitée. Les données issues du MDM étant injectées dans le data lake, le Master Data Management a donc sa place dans un environnement big data (intégrant un data lake) en tant que sources de données structurées de qualité, exploitables rapidement et de manière fiable.
Retrouvez aussi nos articles Bilan du Salon Big Data, Conférence 10 ans de Big Data, et Conférence Tirer parti du Big Data pour un meilleur accompagnement et une meilleure gestion des carrières.