La nouvelle gouvernance de la Data Science

30 janvier 2018

Afin de construire des modèles prédictifs, les data scientists ont besoin de données précises pour la formation et la validation. Bien que beaucoup de temps soit habituellement consacré au nettoyage des sources de données pour la modélisation, il y a souvent des problèmes plus importants avec les données sous-jacentes qui doivent être correctement traitées pour que les modèles formés soient réellement représentatifs.
L’un des objectifs de la gouvernance des données est l’intégrité des données, ce qui implique de valider que les hypothèses sous-jacentes sur l’ensemble de données correspondent à la réalité.

Les fonctions de gouvernance des data scientists et analystes sont de plus en plus courantes, car les entreprises utilisent des ensembles de données complexes et volumineux provenant de diverses sources internes et externes. L’une des principales fonctions de ce rôle consiste à effectuer l’analyse et la validation des ensembles de données afin d’établir la confiance dans les ensembles de données sous-jacents : il faut établir la confiance des ensembles de données avant de les utiliser comme données d’entrée dans les modèles, où les résultats sont visibles pour les clients.

Ce rôle étant néanmoins récent, il faut identifier les défis que devra relever un data scientist :

  1. Remettre en question les hypothèses sous-jacentes aux données
  2. Déterminer comment résoudre les divergences dans les sources de données.
  3. Évaluer la valeur des nouvelles sources de données

1- La remise en question des hypothèses:
L’un des principaux défis lors de l’utilisation d’ensembles de données consiste à déterminer la validité des données. Si on utilise une source de données vieille de plusieurs années, de nombreuses conclusions qui pourraient être tirées des données peuvent ne plus être vraies. Par exemple, l’utilisation de données sur la connectivité à large bande en 2010 serait problématique pour déterminer l’impact de l’abrogation de la neutralité du net sur les ménages américains aujourd’hui. Afin de remettre en question les hypothèses sous-jacentes aux données, il est souvent nécessaire de vérifier les données par rapport à différentes sources. Autre exemple, les données au niveau des transactions fournies par la Commission Electorale Fédérale sur les contributions politiques peuvent être comparées aux montants globaux déclarés par les campagnes.
Un rôle de gouvernance établira des priorités quant aux points de données à inspecter manuellement, afin d’accroître la confiance dans les ensembles de données et de s’assurer que les conclusions tirées d’un échantillon de données peuvent être appliquées à une population plus vaste.

2 – La résolution des divergences:
Un autre aspect de ce rôle consiste à déterminer comment résoudre les problèmes avec les ensembles de données lorsqu’ils sont découverts. Dans le cas de résultats erronés publiés, une “autopsie” devrait être publiée expliquant comment les résultats changent en fonction des informations nouvellement découvertes. Mais si les données d’entrée sont plutôt utilisées pour la modélisation, l’analyste devra travailler avec une équipe d’ingénieurs pour résoudre ces problèmes dans le pipeline de données.

Tout comme dans le cas de la production d’un modèle, un spécialiste de la gouvernance des données devra être capable de mettre en production des correctifs de la qualité des données (script ou pull-requests avec des changements de code).

3- L’évaluation des nouvelles sources:
Autre mission dans le cadre de cette nouvelle gouvernance : évaluer si de nouvelles sources de données valent la peine d’être utilisées à des fins de modélisation. Un spécialiste des données dans ce rôle devra être en mesure de travailler avec des données tierces dans une variété de formats et de types de sources, et d’effectuer une analyse exploratoire de ces données.
Souvent, l’exploration d’un nouvel ensemble de données vise à vérifier les corrélations entre les attributs de différents ensembles de données, et les data scientists doivent pouvoir travailler efficacement avec des sources de données disparates.


Profil des rôles de gouvernance

Alors, que recherchent les entreprises dans le cadre de ce nouveau rôle de gouvernance ? La plupart du temps, les compétences demandées sont les suivantes :

  1. AED : Expérience démontrée de l’analyse exploratoire des données (AED) dans des ensembles de données volumineux et désordonnés. Par exemple, travailler avec une API tierce et tester les hypothèses de base sur les données.
  2. Scénarisation : Les data scientists doivent être capables de produire leurs résultats. R et Python sont un bon point de départ pour mettre en place une recherche reproductible, mais il faut que les résultats des projets de scripting puissent être traduits dans un pipeline de données.
  3. Rédaction : La communication écrite et verbale est essentielle pour ce rôle, car le rôle de gouvernance doit pouvoir partager les résultats avec les équipes techniques, les chefs d’entreprise et les fournisseurs de données tiers. Il s’agit notamment de rédiger des rapports écrits longs, de créer des visualisations convaincantes et de documenter de nouvelles sources de données.

Ces missions diffèrent de celle liée au machine learning, car l’accent n’est pas mis sur la modélisation prédictive, mais plutôt sur l’amélioration de la qualité et de l’intégrité des données. Il diffère également des rôles d’analyse des produits, car l’objectif est d’identifier les écarts dans les données sous-jacentes plutôt que dans les mesures de l’entreprise. Malgré ces différences, le rôle exige toujours les connaissances statistiques, l’expertise dans le domaine et les compétences de piratage généralement associées à la data science.

Ndlr: Ce texte est une traduction d’un article écrit par Ben Weber, Lead Data Scientist chez WindfallData, ce qui explique les exemples “américains” cités plus haut.

 

 

Altares Dun & Bradstreet

Altares Dun & Bradstreet

Expert de l’information sur les entreprises, Altares collecte, structure, analyse et enrichit les données BtoB afin de les rendre « intelligentes » et faciliter la prise de décision pour les directions générales et opérationnelles des entreprises. Le groupe propose son expertise sur toute la chaine de valeur de la data. Partenaire exclusif en France, au Benelux et au Maghreb de Dun & Bradstreet, 1er réseau international d’informations BtoB, Altares se positionne comme le partenaire de référence des grands comptes, ETI, PME et organisations publiques, en leur offrant un accès privilégié à ses bases de données sur 500 millions d’entreprises dans 220 pays.

Dans cet article

Bienvenu sur notre espace d’aide en ligne, veuillez choisir une des options ci-dessous.

Prenez rendez-vous avec un expert