MapR intègre Apache Spark à sa distribution Hadoop

MapR vient d’annoncer l’intégration de la pile de traitement en mémoire vive Apache Spark à sa distribution Hadoop.

par

Valéry Rieß-Marchive, Rédacteur en chef

Publié le: 15 avr. 2014

MapR Technologies, l’un des pionniers des distributions Hadoop a annoncé un partenariat avec Databricks pour l’inclusion du framework de traitement anlytique in-memory Apache Spark dans sa distribution. Actuellement en version 0.9.1, Spark est un moteur analytique pour le traitement des données stockées dans HDFS, Hbase, Cassandra et Hive, dont la particularité est de requêter les données directement en mémoire. Spark supporte des requêtes formulées en Java, Scala et Python et nécessite un système de fichier distribué sous-jacent comme HDFS (ou un partage NFS)

Dans un communiqué, Matt Aslett, directeur de recherche, plateformes de données et analytique, du cabinet 451 Research, estime que cette intégration de Spark dans le logiciel de MapR, assortie d’un partenariat de support avec Databricks, « devrait donner confiance aux utilisateurs d’Hadoop pour commencer à développer des applications qui tirent profit des performances et de la flexibilité de Spark. »

Selon MapR l'utilisation de Spark permet d'améliorer les performances des requêtes d’un facteur allant de 5 à 100. Comme le souligne l'éditeur, Spark était déjà associé à de nombreux environnements s’appuyant sur sa distribution Hadoop. Mais l’intégration de l’ensemble de la pile Spark dans son offre ouvre aux clients MapR l’accès à un support complet de leurs projets utilisant la pile de traitement en mémoire d’Apache.

MapR intègre Apache Spark à sa distribution Hadoop

MapR vient d’annoncer l’intégration de la pile de traitement en mémoire vive Apache Spark à sa distribution Hadoop.

Pour approfondir sur Big Data et Data lake

Les principales distributions Hadoop sur le marché

MapR se vend à HPE : vers l’hiver des pure-players du Big Data

Hadoop ou la force d’un écosystème

SQL sur Hadoop : Impala a gagné sa communauté