echiechi - Fotolia

L’essentiel sur MapR et sa déclinaison d'Hadoop

MapR a remplacé HDFS par son propre système de fichiers compatible NFS pour améliorer les capacités d’administration des données ainsi que leur fiabilité. MapR le propose dans une plateforme dont les usages s’étendent au-delà d’Hadoop.

MapR Converged Data Platform : d’Hadoop à la convergence de technologies de traitement et de stockage des données. C’est le parcours de la société MapR, un des pure-players historiques du monde Hadoop qui a bâti sa solution sur un ensemble d’outils Open Source auxquels ont été adjointes des briques propriétaires, censées coller aux desideratas des entreprises et des environnements critiques. Parmi ceux-là, les outils d’administration, mais aussi d’autres portant sur des fonctions de résilience et de fiabilité des données des clusters Hadoop.

MapR s’est historiquement appuyé par exemple sur un système de fichiers particulier, MapR File System (MapR-FS), ou encore sur une interface utilisateur dédiée, MapR Control System, en plus de proposer une implémentation complète des APIs Hadoop.

MapR-FS est écrit en C++, alors que HDFS, le système de fichiers d’Hadoop, est en Java. A l’inverse d’HDFS, qui s’inscrit dans une logique « write once, read many », MapR-FS est entièrement compatible POSIX et s’appuie sur le standard NFS. En supportant ce dernier, les utilisateurs peuvent monter facilement un cluster MapR et exécuter leurs applications directement sur les données du cluster. Avec cette approche, (presque)toutes les sources de données peuvent être intégrées, et les outils utilisés en standard par les entreprises peuvent être utilisés pour accéder directement aux données, sans aucune modification.

A l’inverse des autres distributions Hadoop, MapR peut traiter des fichiers distribués, des tables et des streams d’événements sur le même cluster. Cela permet par exemple d’utiliser des outils comme Impala ou Hive sur un unique cluster, sans coût additionnel.

Récemment, MapR a inclus un outil de gestion des streams d’événements à sa plateforme, MapR Streams. Cela ajoute le support de flux de données en temps réel depuis le producteur vers le consommateur de données. La société prétend qu’il s’agit du seul système de streaming qui supporte la réplication d’événements à l’échelle de l’IoT par exemple.

Parmi les autres outils de la Converged Platform :

  • MapR Snapshots améliore la protection des données en créant des snapshots à intervalle régulier des fichiers et des tables.
  • Le chiffrement des données transférées depuis ou vers le cluster ainsi que des mécanismes d’authentification forte.
  • Des fonctions de mirroring qui peuvent être facilement configurées et qui supportent la récupération après sinistre.

Les différentes éditions

La société propose 2 éditions : Converged Community Edition, une version illimitée et gratuite, et Converged Enterprise Edition, une version payante à l’abonnement pour les entreprises souhaitant bénéficier d’outils dédiés à la continuité d’activité par exemple. La version Enterprise inclut des fonctions de snapshots, de haute disponibilité et de récupération après sinistre ainsi qu’un support commercial 24/7.

Plusieurs options de formation sont proposées : en ligne et à la demande ou auprès d’un formateur (payant) menant à des certifications.

La société tient également à disposition un bac à sable qui permet de tester Hadoop et Spark et donne accès à des tutoriels et des démonstrations d’applications. Une version Cloud permet de déployer la solution sur Azure, Google Cloud Platform et AWS.

Plusieurs outils permettent également d’accélérer la prise en main de MapR. Cela se traduit par la forme d’environnement pré-définis via des systèmes de templates qui s’appuient sur des scenarii particuliers et des cas d’usage donnés, comme l’exploration de donnés en self-service, l’analyse de données temporelles, ou le moteur de recommandations.

MapR fonctionne sur plusieurs variantes de Linux : Red Hat, CentOS, Suse et Ubuntu.

Licencing et support

Si les utilisateurs disposent de nombreuses ressources en ligne, le support Premium (Premium Support) apporte un support Web, via email et un accès à un portail personnalisé. A cela s’ajoute de la formation, de la correction de bugs urgents, un support permanent et un support téléphonique 24/7 pour les problèmes considérés comme prioritaires.

Premium+ Support y ajoute un système de ticketing, un point de contact unique et plusieurs options pour un support dédié, à distance ou sur site.

Pour approfondir sur Big Data et Data lake

Close