Comment se positionne un spécialiste de la data à forte valeur ajoutée comme Altares vis à vis de la (relative) déferlante de l’Open Data ? Est-ce que les sources sont nombreuses, sont-elles fiables ? Quelles sont les complémentarités entre les deux approches ?
Pour répondre à ces questions, nous avons interrogé Anne-Sophie Choqueuse et Frédéric Parésy de l’équipe Avant-ventes d’Altares, tous deux spécialistes du sujet.
Bonjour à vous deux ! Quelles sont les sources les plus importantes actuellement en matière d’Open Data ?
Tout d’abord, un petit rappel sur la définition s’impose : L’open data est une donnée brute numérique dont l’accès et l’usage sont laissés libres aux individus.
Elle peut être d’origine publique ou privée, produite notamment par une collectivité, un service public (éventuellement délégué) ou une entreprise.
Elle est diffusée de manière structurée selon une méthode et une licence ouverte garantissant son libre accès et sa réutilisation par tous, sans restriction technique, juridique ou financière.
Dans les faits, la donnée sur les entreprises accessibles en open-data est de 3 sortes :
– la donnée officielle réellement libre et “gratuite” issue des grands organismes
– la donnée officielle semi-libre, celle qui s’ouvre peu à peu à l’Open Data
– la donnée officielle qui devrait s’ouvrir dans les années à venir
Quelle sont les différences entre ces 3 catégories ?
La première, je peux la retrouver sur toute plateforme proposant de l’Open Data. Il s’agit donc surtout des données issues de l’INSEE et concerne donc des données publiques : des entreprises, des affaires personnelles, des lieux, des bâtiments, des transactions.
Concernant la deuxième, je dois me référencer auprès du service diffuseur et motiver mon usage pour valider les éventuels droits de redevances (décret n°2016-1036 et décret n°2016-1617 du 29 novembre 2016)
Enfin, pour la troisième, il faut savoir si la donnée existe, qui la collecte et la détient pour ensuite la motiver et la publier.
Concrètement, de quels organismes émanent ces données ouvertes ?
Historiquement, les administrations publiques étaient réticentes à communiquer des données mais depuis que la République s’est déclarée “numérique” (loi n°016-1321 du 7 octobre 2016), les différentes administrations s’y soumettent peu à peu.
Nous avons donc en premier lieu les données issues de l’INSEE avec la fameuse base SIRENE, recensant tous les établissements actifs en France, avec leur identifiant Siret, leur dénomination, forme juridique, activité et une multitude de données statistiques déclaratives.
Ensuite, nous avons les données issues de l’INPI (missionné par les Greffes) sur le Registre National des Commerces et des Sociétés (fichiers IMR), qui recensent les entreprises à caractère commercial avec des informations plus pertinentes comme le nom du dirigeant.
Il faut ajouter aussi les données du Bodacc (Bulletin Officiel Des Annonces Civiles et Commerciales) indiquant la nature des actes légaux qui jalonnent la vie de l’entreprise (création, cession, dépôt des comptes, changement de dirigeant, ouverture de jugements, etc.). Cette source est semi-libre car il faut s’enregistrer auprès d’eux pour disposer de leurs données.
Ce sont les 3 sources les plus importantes car elles permettent de valider la situation de l’entreprise, tant d’un point de vue géographique, statutaire, économique et légal.
D’autres sources sont complémentaires, comme les marques et brevets de l’INPI, mais ne permettent pas de valider l’un de ces états. Ces sources apportent juste un complément d’information.
Comment Altares donne de la valeur ajoutée aux informations provenant de l’Open Data ?
Altares détient une licence pour traiter ces sources depuis leur origine (1987 pour l’INSEE) et forts de cette expérience nous avons une connaissance accrue de toutes les nuances derrière ces données.
Pris séparément, la valeur qu’apporte Altares à ces données est finalement peu visible tant la masse d’information est importante. Par exemple, l’INSEE fournit un découpage de l’adresse au format RNVP (format postal pour distinguer le numéro de la voie, son éventuel indice de répétition et son type de voie) mais l’INSEE ne vérifie pas si cette adresse existe réellement alors que Altares le fait (et le corrige). C’est avec le temps que nous avons pu détecter ce type de situation et prendre conscience que ces petites erreurs de saisie peuvent avoir des conséquences importantes, surtout quand il s’agit des procédures collectives.
La valeur réelle que nous apportons tient surtout dans la compilation et l’agrégation de ces différentes sources. Un changement statutaire n’est pas remonté à la même date, voire pas du tout remonté, d’autant plus qu’il y a parfois quelques nuances entre des termes communs : le statut fermé (radiation) n’a pas le même sens à l’INSEE que chez les Greffes où l’on distingue la situation économique de la situation juridique.
Notre expérience sur les sources d’erreurs liées à la saisie initiale de l’information et la priorisation des sources asynchrones et parfois contradictoires sont les facteurs clés de la valeur ajoutée que nous délivrons. L’open-data délivre une information à un instant T, sans précision du contexte et encore moins de l’historique. Aucune donnée détaillée antérieure au 1er janvier 2017 n’est disponible.
En dehors de ces 3 sources, nous apportons également une valeur ajoutée essentielle aux besoins de nos clients : compléter et recadrer l’information issue de ces sources.
Prenez les Siren présents dans les données issues de la CNIL, à peine 25% de Siren présents. Et ceux-ci sont soit faux (on s’aperçoit que c’est le Siren du cabinet d’avocat) soit obsolète (la société a fusionné ou tout simplement fermé). Nous sommes en mesure de recadrer toutes ces approximations et c’est d’ailleurs ce que nous faisons sur toutes les annonces légales sensibles (procédure, TUP, cession) où nous revalidons la cohérence du Siren avec la raison sociale et l’adresse indiquée dans l’annonce.
En quoi peut-il y avoir une synergie avec une base d ‘information comme celle d’Altares ?
Eh bien, une Open Data, c’est un prisme, une photo, une vue statique à un instant donné. Sans l’associer à d’autres sources et à un référentiel stable, c’est comme jouer aux échecs sans le plateau, ni la connaissance des mouvements des pièces qui composent le jeu.
L’enjeu auquel nous répondons est de trouver la clé de voûte qui permet de rattacher la donnée libre à la donnée B2B. D’une part Altares corrige, d’autre part Altares identifie quand le Siren ou le Siret est manquant et enfin, Altares complète les données manquantes avec toutes celles que nous possédons.
Un exemple : Prendre en compte que tel brevet de biotechnologie est rattaché à la société Lambda sans savoir quel est le Siren de cette dernière et donc sans savoir si cette société est une filiale d’un grand groupe international ou pas, vous fera perdre un temps précieux si vous avez à prendre des décisions vis à vis de cette dernière.