Big Data: les 17 prédictions, épisode 2: Spark vs SQL

26 avril 2017

Partager l'article :

Sommaire

#Prédiction n°2

« Les façons d’analyser la Data s’améliorent. Alors que le SQL est toujours le standard, Spark est en train d’émerger comme outil complémentaire d’analyse et va continuer de s’améliorer, selon Ovum. »

big data 17 predictions e2 sql contre spark
Soyons honnêtes, la 1ère prédiction était tellement banale qu’il nous était difficile d’y apporter un commentaire à valeur ajoutée. Vous avez été nombreux à nous le signaler, on assume.
Passons maintenant aux choses sérieuses.

Un point de vocabulaire s’impose avant de continuer :

  • Le SQL (Structured Query Language ou, en français, langage de requête structuré) a été mis au point par IBM dans les années 70 pour exploiter et gérer les bases de données relationnelles. Aujourd’hui, il est toujours utilisé pour définir, manipuler et contrôler les données.
  • Spark : Techno conçue dès 2009 par des chercheurs de l’université de Berkeley dans le cadre du programme Apache Software. Spark va plus loin que SQL en permettant de traiter des données issues de différents référentiels et en s’inscrivant dans le framework Hadoop.
  • Ovum : entreprise britannique spécialisée dans l’analyse stratégique des entreprises du secteur des réseaux et des télécoms. Ovum publie régulièrement des études et baromètres reconnus dans le secteur.

Si on veut résumer en termes journalistiques un peu vulgarisateurs, c’est la confrontation de l’ancien et du nouveau monde de la Data. Le langage SQL est surtout utilisé pour les bases de données en tant que telles. Spark aussi mais il va plus vite (il a été conçu pour accélérer les tâches de traitement sur Hadoop et effectue des tâches 100 fois plus vite que MapReduce), il permet de traiter des volumes plus importants de données et, en prime, peut fonctionner en partie comme une API.
Néanmoins, SQL et Spark ne sont pas incompatibles et peuvent être utilisés à différents stades du traitement des données.

Reste le sujet des infrastructures mises en place au sein des entreprises : les grandes entreprises « traditionnelles » de même que les acteurs historiques de la base de données et de la data (comme Altares) utilisent SQL en partie parce que, logiquement, Spark n’existait pas à l’époque mais surtout parce que ce langage est internationalement normé, très structuré et d’une grande stabilité. Au fond, on pourrait dire qu’il est presque plus facile d’accès que son jeune concurrent, ce dernier étant logiquement utilisé plus largement par des startups « pure players » et spécialistes de la Big Data.
Néanmoins si passer de SQL à Spark au sein des entreprises n’est pas neutre en termes de délais de transfert, d’infrastructures IT mais également de culture, les spécialistes s’accordent à dire que Spark, par sa vitesse de fonctionnement, sa capacité à fédérer plusieurs types de bases de données et à exécuter des applications analytiques variées, porte le potentiel d’une technologie unificatrice pour les applications de Big Data.

Altares Dun & Bradstreet

Altares Dun & Bradstreet

Expert de l’information sur les entreprises, Altares collecte, structure, analyse et enrichit les données BtoB afin de les rendre « intelligentes » et faciliter la prise de décision pour les directions générales et opérationnelles des entreprises. Le groupe propose son expertise sur toute la chaine de valeur de la data. Partenaire exclusif en France, au Benelux et au Maghreb de Dun & Bradstreet, 1er réseau international d’informations BtoB, Altares se positionne comme le partenaire de référence des grands comptes, ETI, PME et organisations publiques, en leur offrant un accès privilégié à ses bases de données sur 500 millions d’entreprises dans 220 pays.

Bienvenu sur notre espace d’aide en ligne, veuillez choisir une des options ci-dessous.

Prenez rendez-vous avec un expert