Cloudera met l'accent sur les performances et la stabilité avec sa troisième distribution Hadoop

Plus d'une centaine de correctifs de bugs, des performances annoncées en hausse et de nouvelles intégration avec des outils tiers pour l'éléphant jaune de Cloudera.

Hadoop : un éléphant jaune dans le monde du traitement massif de données...

Cloudera vient de rendre disponible la version 3.0 de sa distribution libre basée sur Apache Hadoop et  dont l’objectif est de fournir aux entreprises une infrastructure distribuée « prête à l’emploi » pour la manipulation et le traitement de grands volumes de données. CDH (Cloudera’s Distribution including Apache Hadoop) est notamment utilisé par des grands noms du Web tels Twitter, AOL, Groupon, Comscore, mais aussi par des sociétés comme Trend ou Samsung. La distribution s'installe sur les principaux Linux du marché dont RHEL, Suse Linux, Ubuntu et CentOS.

Une distribution Hadoop complète

CDH3 embarque bien sûr les deux composants au cœur d’Hadoop, à savoir le  système de fichiers distribués Hadoop (HDFS) et Hadoop MapReduce, le framework de traitement de grands jeux de données issus des travaux de Google. Mais la distribution inclut aussi de nombreux projets libres périphériques à Hadoop, dont Flume (un service de chargement de données sur HDFS développé par Cloudera), Hbase (une base de données en mode colonnes qui fournit des capacités similaires à celles de BigTable chez Google), Hive (un système de datawarehouse basé sur le le système de fichiers Hadoop et né de travaux de Yahoo, qui inclut un langage de requête proche de SQL, baptisé HiveQL).

Elle intègre aussi Hue (une interface graphique pour Hadoop), Apache Pig (un langage de requête conçu pour analyser de grands jeux de données né chez Yahoo), Sqoop (un outil d’importation de bases SQL vers Hadoop),  Oozie (un moteur de workflow pour orchestrer des jobs Hadoop/MapReduce et des scripts Pig) et Zookeeper (un outil de coordination de processus distribués). Selon Cloudera, cette troisième mouture de sa distribution Hadoop apporte aussi des intégrations avec des outils tiers comme les outils de BI de Microstrategy, via un nouveau pilote ODBC.

Jusqu'à trois fois plus rapide sur les petits jobs MapReduce

Cloudera explique que CDH3 apporte des gains significatifs de performances par rapport à la mouture antérieure de sa distribution Hadoop. Ainsi, sur de petits « jobs » MapReduce, le nouveau venu serait 3 fois plus rapide que la version antérieure. Les performances en entrées/sorties du système de fichiers HDFS auraient par ailleurs été améliorées de près de 20% tandis que le débit lors de requête HBase aurait été multiplié par deux. Cloudera indique enfin avoir corrigé des centaines de bogues rapportés sur les 11 composants principaux de CDH3.

Il est à noter que Cloudera organise sur le Web un webcast gratuit (enregistrement sur le site de l'éditeur) pour présenter les bénéfices de CDH3, le 21 avril prochain.

A lire aussi sur LeMagIT:

Pour approfondir sur Outils décisionnels et analytiques

Close