La pyramide des besoins en data science et en IA

15 janvier 2018

Partager l'article :

Sommaire

pyramide des besoins IA et data science

 

Comme c’est habituellement le cas avec les technologies à évolution rapide, l’Intelligence Artificielle a suscité nombre de polémiques. Une partie est méritée, une autre non, mais l’industrie y prête attention. Qu’il s’agisse de startups, de géants de la Fintech ou d’institutions publiques, tout le monde travaille fébrilement sur sa stratégie d’IA.
Tout se résume à une question cruciale : “Comment utiliser l’intelligence artificielle et l’apprentissage automatique pour améliorer notre travail ?

Le plus souvent, les entreprises ne sont pas prêtes pour l’IA. Peut-être ont-elles embauché leur premier data scientist pour des résultats moins que sommaires, ou peut-être que la maîtrise des données n’est pas un élément central de leur culture. Mais le scénario le plus commun est qu’elles n’ont pas encore construit l’infrastructure pour implémenter les algorithmes et les opérations les plus basiques de la data science et encore moins l’apprentissage machine.
Alors comment dire aux entreprises qu’elles ne sont pas prêtes pour l’IA sans avoir l’air (ou être) élitiste ou un gardien autoproclamé du temple ?

Voilà l’argument qui a eu le plus d’écho : Considérez l’IA comme le sommet d’une pyramide des besoins. Oui, l’auto-réalisation est une bonne chose mais il faut d’abord de la nourriture, de l’eau et un abri (culture des données, collecte et infrastructure).

Besoins de base : Pouvez-vous compter ?

Au bas de la pyramide, nous avons la collecte de données. De quelles données avez-vous besoin et quelles sont les données disponibles ? S’il s’agit d’un produit orienté utilisateur, enregistrez-vous toutes les interactions utilisateur pertinentes ? S’il s’agit d’un capteur, quelles données sont transmises et comment ? Est-il facile d’enregistrer une interaction qui n’est pas encore instrumentée ? Après tout, un data set correct est ce qui a rendu possible les progrès récents du machine learning.

Ensuite, comment les données circulent-elles dans le système ? Avez-vous des flux fiables / ETL (Extract-Transform-Load) ? Où les conservez-vous et dans quelle mesure sont-elles faciles d’accès et d’analyse ? Jay Kreps dit depuis une dizaine d’années qu’un flux de données fiable est la clé pour tout faire avec les données.

C’est seulement lorsque les données sont accessibles que vous pouvez les explorer et les transformer. Cela comprend le fameux “nettoyage des données”, un aspect sous-évalué de la science des données. C’est à ce moment-là que vous découvrez qu’il vous manque un tas de données, que vos capteurs ne sont pas fiables, qu’un changement de version signifie que vos événements sont abandonnés, que vous interprétez mal un signal – et que vous retournez à la base de la pyramide pour vous assurer qu’elle est solide.

Lorsque vous êtes en mesure d’explorer et de nettoyer les données de manière fiable, vous pouvez commencer à construire ce que l’on considère traditionnellement comme de la BI ou de l’analytique : définir des métriques à suivre, leur saisonnalité et leur sensibilité à divers facteurs. Peut-être en faisant une segmentation grossière des utilisateurs et voir si quelque chose en ressort. Cependant, puisque votre objectif est l’IA, vous construisez maintenant ce que vous penserez plus tard comme des fonctionnalités à incorporer dans votre modèle de machine learning. A ce stade, vous savez également ce que vous aimeriez prédire ou apprendre, et vous pouvez commencer à préparer vos données d’entraînement en générant des étiquettes, soit automatiquement, soit à la main.
C’est aussi là que vous trouvez vos histoires de données les plus passionnantes et les plus fascinantes.

OK, je sais compter. Et maintenant quoi ?

Nous avons des données d’entraînement et donc maintenant, nous pouvons certainement faire de l’apprentissage automatique ?
Peut-être, si vous essayez de prédire le taux de désabonnement en interne ; non, si le résultat doit être directement confronté avec les clients. Il doit être mis en place un cadre de test ou d’A/B testing (même basique) afin de pouvoir se déployer progressivement pour éviter les catastrophes et obtenir une estimation approximative des effets des changements avant qu’ils n’affectent tout le monde. C’est également le bon moment pour mettre en place une base de référence très simple (pour les systèmes de recommandation, ce serait par exemple “le plus populaire”, puis “le plus populaire pour votre segment d’utilisateur” – le très ennuyeux mais efficace “stéréotype avant personnalisation”).

A ce stade, vous pouvez déployer un algorithme de machine learning très simple (comme la régression logistique ou la division), puis penser à de nouveaux signaux et caractéristiques qui pourraient affecter vos résultats. Et non, aussi puissant qu’il soit, le deep learning ne le fait pas automatiquement pour vous. Apporter de nouveaux signaux (création de fonctionnalités, pas d’ingénierie de fonctionnalités) est ce qui peut améliorer vos performances à pas de géant. Cela vaut la peine de passer un peu de temps ici, même si, en tant que scientifiques spécialistes des données, on est légitimement enthousiastes à l’idée de passer au niveau suivant de la pyramide.

Apportez l’IA !

C’est fait. Vous êtes équipé. L’ETL fredonne. Vos données sont organisées et nettoyées. Vous avez des tableaux de bord, des étiquettes et de bonnes fonctionnalités. Vous mesurez les bonnes choses. Vous pouvez expérimenter quotidiennement. Vous avez un algorithme de base qui est débogué de bout en bout et qui fonctionne en production – et vous l’avez changé une douzaine de fois.
Vous êtes prêts. Allez de l’avant et essayez toutes les nouveautés les plus récentes et les plus performantes – de la mise en œuvre des vôtres jusqu’ à l’utilisation d’entreprises spécialisées dans l’apprentissage machine. Il se peut que vous obteniez de grandes améliorations dans la production ou non. Dans le pire des cas, vous apprenez de nouvelles méthodes, développez des opinions et une expérience pratique avec eux, et vous pouvez parler à vos investisseurs et clients de vos efforts d’IA sans passer pour un imposteur. Dans le meilleur des cas, vous faites une énorme différence pour vos utilisateurs, vos clients et votre entreprise – une véritable réussite d’apprentissage machine.

Attendez, qu’en est-il des MVP, méthodes agiles, lean management et tout ça ?

La hiérarchie des besoins en matière de données scientifiques n’est pas un prétexte pour construire pendant un an une infrastructure déconnectée et surdimensionnée. Tout comme lors de la construction d’un MVP traditionnel (Minimally Viable Product), vous commencez par une petite section verticale de votre produit et vous le faites fonctionner de bout en bout. Vous pouvez construire sa pyramide, puis la faire pousser horizontalement.
Par exemple, chez Jawbone (bracelets connectés), ils ont commencé avec les données sur le sommeil et ils ont construit leur pyramide : instrumentation, ETL, nettoyage et organisation, capture et définition des étiquettes, métriques (quel est le nombre moyen d’heures de sommeil par nuit ? Et les siestes ? C’est quoi une sieste ?), des analyses transversales jusqu’aux données historiques et aux produits de données basés sur l’apprentissage machine (détection automatique du sommeil).
Ils l’ont ensuite étendu aux pas, puis à la nourriture, à la météo, aux séances d’entraînement, au réseau social et à la communication – un à la fois.
Bref, ils n’ont pas construit une infrastructure globale sans la mettre en œuvre de bout en bout.

La promesse des outils de machine learning

Attendez, qu’en est-il de l’API Amazon, de TensorFlow ou d’autres bibliothèques open source ? Qu’en est-il des entreprises qui vendent des outils de machine learning ou qui extraient automatiquement des aperçus et des fonctionnalités ?

Tout cela est génial et très utile. Cependant, sous la forte influence du battage médiatique actuel sur l’IA, les gens essaient de brancher des données qui sont sales et pleines de lacunes, qui s’étendent sur des années tout en changeant de format et de sens, qui ne sont pas encore comprises, qui sont structurées d’une manière qui n’a pas de sens et ils attendent de ces outils qu’ils les gèrent comme par magie. Et peut-être qu’un jour ce sera bientôt le cas mais d’ici là, il vaut mieux se donner la peine de bâtir une base solide pour votre pyramide de besoins IA.


[Ce texte est la traduction d’un article posté par Monica Rogati (@mrogati) sur Medium]

Altares Dun & Bradstreet

Altares Dun & Bradstreet

Expert de l’information sur les entreprises, Altares collecte, structure, analyse et enrichit les données BtoB afin de les rendre « intelligentes » et faciliter la prise de décision pour les directions générales et opérationnelles des entreprises. Le groupe propose son expertise sur toute la chaine de valeur de la data. Partenaire exclusif en France, au Benelux et au Maghreb de Dun & Bradstreet, 1er réseau international d’informations BtoB, Altares se positionne comme le partenaire de référence des grands comptes, ETI, PME et organisations publiques, en leur offrant un accès privilégié à ses bases de données sur 500 millions d’entreprises dans 220 pays.

Bienvenu sur notre espace d’aide en ligne, veuillez choisir une des options ci-dessous.

Prenez rendez-vous avec un expert