Spark 1.0, un turbo pour Hadoop

La fondation Apache a annoncé fin mai que le projet Open Source Spark était arrivé à maturité dans sa version 1.0

Donner un turbo à Hadoop. C’est l’objectif que s’est fixée la communauté Open Source derrière le projet Apache Spark, rendu disponible à la fin mai dans sa première version stable. Le projet, développé en 2009 dans les labos de l’Université de Berkeley et mis à l’Open Source en 2010, a très vite rencontré une communauté d’utilisateurs, portée par les élans du mouvement Big Data et de l’émergence d’Hadoop. En quelques mois, Spark, soutenu par la société Databricks, notamment, est passé d’un statut de projet de premier niveau de la fondation Apache (s’extirpant ainsi de son très précieux incubateur) pour murir vers sa version stable 1.0.

Il faut dire que Spark a de quoi séduire, dans un monde où le Big Data ainsi que le traitement et la manipulation des données, qu’elles soient structurées ou pas, sont listés parmi les priorités des entreprises et des DSI. Spark fait la promesse « d’augmenter » d’Hadoop en contournant la lenteur et la difficulté des traitements batch de MapReduce. Son moteur de traitement in-memory, ses capacités analytiques ainsi que sa facilité d’utilisation – ce qui vient aussi trancher avec le monde MapReduce, en font un « couteau suisse pour Hadoop », comme le qualifie la fondation Apache. Selon l’institution, Spark permet d’exécuter des applications 100 fois plus rapidement qu’avec MapReduce.

Si cette version 1.0 se distingue notamment par une API stable, l’un des apports est le support de SQL via le nouveau module Spark SQL qui permet de réaliser des requêtes SQL au côté du code Spark, précise Databricks, « facilitant l’écriture d’applications qui chargent des données structurées (depuis des sources comme Hive et Parquet) et y exécuter des analyses avancées ».

MicroStrategy certifie sa solution analytique sur Spark

Cloudera, Pivotal, MapR mais également SAS Institute, parmi les éditeurs clés du monde de la BI pour n’en citer que certains, avaient déjà vu en Spark et Databricks, un complément idéal à Hadoop. Tout comme MicroStrategy, un autre acteur phare du décisionnel qui a profité de l’Hadoop Summit qui se tient actuellement aux Etats-Unis pour annoncer être le premier à avoir certifié sa solution Analytics Platform pour Spark – dans le cadre d’un programme de certification initié par Databricks.

Michael Hiskey, vice président de MicroStrategy explique sur le blog de Databricks, les avantages de Spark pour un éditeur comme Microstrategy : “La clé, c’est le traitement in-memory de Spark qui élimine les accès constants au disque, comme le fait MapReduce, une opération très couteuse et chronophage ». Et d’ajouter plus loin : « Spark supporte nativement Java, Scala et Python et nécessite bien moins de lignes de code pour réaliser les mêmes jobs Hadoop. Shark (Hive sur Spark) offre des capacités de requêtes temps-réel pour améliorer l’exploration de données ad-hoc, rendant Hadoop raisonnablement interactif, et pour la première fois ».

Pour approfondir sur Big Data et Data lake

Close