Sergey Nivens - Fotolia

Spark commence à se passer d’Hadoop

Spark semble désormais voir sa croissance grandir au delà d’Hadoop et suivre un chemin parallèle. Le nombre d’instances seules dépasse celui de Spark sur Yarn ou HDFS.

par

Cyrille Chausson, Rédacteur en Chef

Publié le: 30 sept. 2015

Spark, la coqueluche des frameworks analytiques pour le Big data, semble prendre doucement son envol hors du giron d’Hadoop, a révélé une étude de Databricks, la société à l’origine du projet et dont le modèle repose sur la commercialisation de services autour du framework.

Selon cette étude, réalisée auprès de 1 417 utilisateurs répartis dans 842 entreprises, 48% d’entre eux utilisent Spark dans un mode standalone, déconnecté d’Hadoop. Quelque 40% des répondants en revanche utilisent Spark au dessus de Yarn sur Hadoop, tandis que pour 11%, le framework est conjugué à Apache Mesos.

Cela a ainsi de quoi surprendre tant la pile Hadoop, qui s’adosse au système de fichiers HDFS, est vu comme un synonyme de Big Data, depuis même sa conception chez Yahoo en 2005 à partir du MapReduce de Google, mené par Doug Cutting - aujourd’hui architecte en chez Cloudera, un pilier du monde Hadoop.

Pour Matei Zaharia, créateur d’Apache Spark et CTO de Databricks, la croissance continue de Spark est très encourageante, et est liée au fait que les entreprises passent le framework en production pour obtenir de vrais résultats. Et elles le font dans différents types d’environnements, au delà des clusters Hadoop », explique-t-il.

Cette étude (Spark User Survey) est également riche d’autres enseignements. Ainsi on y apprend que les utilisateurs se tournent d’abord vers Spark pour des raisons de performances (91%), pour sa facilité à programmer (77%) et celle à déployer (71%). Plus de la moitié citent également le streaming en temps réel comme la motivation première de leur adoption. Enfin 51% affirment faire fonctionner Spark sur un Cloud public.

Spark est également utilisé pour ses capacités de Machine Learning, de streaming et de graphes. L’étude révèle par exemple que les utilisateurs des fonctions de streaming sont 56% plus nombreux qu’en 2014.

Mais qui sont les utilisateurs ?

Quelque 41% des utilisateurs Spark s’identifient eux-mêmes comme des ingénieurs de la donnée (Data Engineers), alors que 22% se qualifient de Data Scientists. Les langages utilisés avec Spark sont à 71% Scala, 58% Python, 36% SQL, 31% Java et 18% R.

Et les cas d’usage ? 52% des répondants utilisent le framework pour des scenarii d’entrepôt de données, 68% dans la cadre de projets de BI, 40% pour opérer des traitements de logs, 48% pour développer des moteurs de recommandation, 36% pour des services face aux clients et 29% pour la détection de fraude et la sécurité.

« De nombreuses entreprises mettent en place une stratégie qui place Spark au premier plan. Le marché va sans aucun doute continuer d’évoluer, mais Spark connaît actuellement une dynamique très forte », commente enfin Nik Rouda, analyste sénior au sein du cabinet Enterprise Strategy Group.

Spark commence à se passer d’Hadoop

Spark semble désormais voir sa croissance grandir au delà d’Hadoop et suivre un chemin parallèle. Le nombre d’instances seules dépasse celui de Spark sur Yarn ou HDFS.

Mais qui sont les utilisateurs ?

Pour approfondir sur Big Data et Data lake

Ignite 2018 : SQL Server 2019 intègre Spark et progresse sous Linux

Microsoft dote Azure d’un service Spark-as-a-service avec Databricks

Les conteneurs : une clé des déploiements de Spark et Hadoop en production

Drizzle : un turbo pour Spark Streaming