Cet article fait partie de notre guide: Spark et SQL-On-Hadoop : vers un Hadoop augmenté

Spark commence à se passer d’Hadoop

Spark semble désormais voir sa croissance grandir au delà d’Hadoop et suivre un chemin parallèle. Le nombre d’instances seules dépasse celui de Spark sur Yarn ou HDFS.

Spark, la coqueluche des frameworks analytiques pour le Big data, semble prendre doucement son envol hors du giron d’Hadoop, a révélé une étude de Databricks, la société à l’origine du projet et dont le modèle repose sur la commercialisation de services autour du framework.

Selon cette étude, réalisée auprès de 1 417 utilisateurs répartis dans 842 entreprises, 48% d’entre eux utilisent Spark dans un mode standalone, déconnecté d’Hadoop. Quelque 40% des répondants en revanche utilisent Spark au dessus de Yarn sur Hadoop, tandis que pour 11%, le framework est conjugué à Apache Mesos. 

Cela a ainsi de quoi surprendre tant la pile Hadoop, qui s’adosse au système de fichiers HDFS, est vu comme un synonyme de Big Data, depuis même sa conception chez Yahoo en 2005 à partir du MapReduce de Google, mené par Doug Cutting - aujourd’hui architecte en chez Cloudera, un pilier du monde Hadoop.

Pour Matei Zaharia, créateur d’Apache Spark et CTO de Databricks, la croissance continue de Spark est très encourageante, et est liée au fait que les entreprises passent le framework en production pour obtenir de vrais résultats. Et elles le font dans différents types d’environnements, au delà des clusters Hadoop », explique-t-il.

Cette étude (Spark User Survey) est également riche d’autres enseignements. Ainsi on y apprend que les utilisateurs se tournent d’abord vers Spark pour des raisons de performances (91%), pour sa facilité à programmer (77%) et celle à déployer (71%). Plus de la moitié citent également le streaming en temps réel comme la motivation première de leur adoption. Enfin 51% affirment faire fonctionner Spark sur un Cloud public.

Spark est également utilisé pour ses capacités de Machine Learning, de streaming et de graphes. L’étude révèle par exemple que les utilisateurs des fonctions de streaming sont 56% plus nombreux qu’en 2014.

Mais qui sont les utilisateurs ? 

Quelque 41% des utilisateurs Spark s’identifient eux-mêmes comme des ingénieurs de la donnée (Data Engineers), alors que 22% se qualifient de Data Scientists. Les langages utilisés avec Spark sont à 71% Scala, 58% Python, 36% SQL, 31% Java et 18% R.

 Et les cas d’usage ? 52% des répondants utilisent le framework pour des scenarii d’entrepôt de données, 68% dans la cadre de projets de BI, 40% pour opérer des traitements de logs, 48% pour développer des moteurs de recommandation, 36% pour des services face aux clients et 29% pour la détection de fraude et la sécurité.

 « De nombreuses entreprises mettent en place une stratégie qui place Spark au premier plan. Le marché va sans aucun doute continuer d’évoluer, mais Spark connaît  actuellement une dynamique très forte », commente enfin Nik Rouda, analyste sénior au sein du cabinet Enterprise Strategy Group.

Pour approfondir sur Big Data et Data lake

Close