Cet article fait partie de notre guide: Spark et SQL-On-Hadoop : vers un Hadoop augmenté

MapR intègre Apache Spark à sa distribution Hadoop

MapR vient d’annoncer l’intégration de la pile de traitement en mémoire vive Apache Spark à sa distribution Hadoop.

MapR Technologies, l’un des pionniers des distributions Hadoop a annoncé un partenariat avec Databricks pour l’inclusion du framework de traitement anlytique in-memory Apache Spark dans sa distribution. Actuellement en version 0.9.1, Spark est un moteur analytique pour le traitement des données stockées dans HDFS, Hbase, Cassandra et Hive, dont la particularité est de requêter les données directement en mémoire. Spark supporte des requêtes formulées en Java, Scala et Python et nécessite un système de fichier distribué sous-jacent comme HDFS (ou un partage NFS)

Dans un communiqué, Matt Aslett, directeur de recherche, plateformes de données et analytique, du cabinet 451 Research, estime que cette intégration de Spark dans le logiciel de MapR, assortie d’un partenariat de support avec Databricks, « devrait donner confiance aux utilisateurs d’Hadoop pour commencer à développer des applications qui tirent profit des performances et de la flexibilité de Spark. »

Selon MapR l'utilisation de Spark permet d'améliorer les performances des requêtes  d’un facteur allant de 5 à 100. Comme le souligne l'éditeur, Spark était déjà associé à de nombreux environnements s’appuyant sur sa distribution Hadoop. Mais l’intégration de l’ensemble de la pile Spark dans son offre ouvre aux clients MapR l’accès à un support complet de leurs projets utilisant la pile de traitement en mémoire d’Apache.  

Pour approfondir sur Big Data et Data lake

Close