Hadoop fêtera la nouvelle année en version 1.0.0 

Le 30 décembre 2011 (16:14) - par Christophe Bardy

Imprimer Envoyer par e-mail

Rubriques : Gestion des données - Outils décisionnels et analytiques Tags : apache - donnees - hadoop - analyse

Les développeurs du framework d'analyse de données open source ont annoncé cette semaine la disponibilité de la version 1.0 d'Hadoop. Une première version "officielle" après six années de développement autour de la technologie.
 unknown
Hadoop est désormais en version 1.0.0

Les développeurs d'Apache Hadoop ont finalement publié cette semaine la version 1.0.0 du "Big Data" du framework d'analyse de données open source. Cette première version "officielle" succède à la version 0.22.0. Elle devrait servir de base à de nouvelles moutures chez les principaux fournisseurs de distributions Hadoop comme HortonWorks et Cloudera, mais aussi le plus propriétaire MapR. Ce dernier, dont les travaux servent de base à la distribution Hadoop d'EMC, se distingue de ses concurrents par le fait qu'il a développé son propre système de fichier en cluster en lieu et place d'HDFS, le filesystem "officiel" d'Hadoop. Ce filesystem propriétaire apporte, selon MapR, de nombreux bénéfices comme le support des accès NFS, mais aussi des performances et une résilience bien supérieure à celle de HDFS (avec notamment la distribution des metadonnées sur l'ensemble des noeuds afin d'éviter les points de faille).

Plus de sécurité et une API REST-HTTP pour le filesystem HDFS

Selon la fondation Apache, cette version 1.0.0 d'Hadoop apporte de nombreuses améliorations à HDFS et MapReduce (les deux composants au coeur d'Hadoop) en termes de sécurité (avec par exemple une authentification basée sur Kerberos), mais aussi de substantiels gains en matière de performance. WebHDFS, une API HTTP et REST pour le filesystem HDFS, permet aussi d'accéder via le protocole HTTP au système de fichiers Hadoop. De nombreux bugs ont aussi été éliminés depuis la version 0.20.

Notons que la sortie d'Hadoop 1.0.0 s'accompagne aussi de l'arrivée d'HBase 0.90.5 (l'équivalent dans le monde Hadoop de BigTable chez Google) qui corrige 81 problèmes identifiés dont 5 bloquants et 11 critiques.

D'importants travaux de développement se poursuivent

Cette version 1.0.0 n'est toutefois qu'une étape dans le développement d'Hadoop. La version 0.23 actuellement en version alpha apportera par exemple des capacités de fédération de clusters HDFS (par exemple pour fédérer des clusters utilisant des noeuds différents). Elle devrait aussi éliminer certaines des restrictions actuelles en matière de name node d'HDFS. L'autre nouveauté importante sera l'arrivée d'une nouvelle mouture de MapReduce (nom de code YARN), qui séparera la gestion de ressources de la gestion des jobs (job scheduling). Cette mouture devrait notamment se traduire par des gains importants en matière de performances, avec des gains moyens de 100% sur l'ensemble des tâches.

A lire aussi sur LeMagIT :

Etat du monde IT : le Big Data, une offre qui se forme

livres blancs avec LesSourcesIT.fr

Sécuriser les terminaux mobiles des utilisateurs dans l’entreprise

Les appareils mobiles, tels que les smartphones et les tablettes tactiles, permettent à un nombre croissant d’employ…


L’efficacité opérationnelle et la réduction des coûts grâce à une approche intégrée de la veille sécuritaire

La mise en place d’un programme de veille sécuritaire efficace au sein d’une organisation n’est pas à prendre à…

vues 709 lectures commentaire 2 commentaire(s) recommandation notez cet article
2

Réagissez à cet article

Votre Pseudo

Commentaire

Pertinence du commentaire : 5
Par antibhl
 Le 03/01/2012 à 11:08
comment peut-on avoir des gains moyens de 100 % ... c'est n'importe quoi !!!

cela signifierait qu'il y aura des gains supérieurs à 100 % sur certaines tâches en matière de performances (donc de temps de traitement).... donc que HADOOP a inventé des tâches permettant de remonter le temps !!!
Noter ce commentaire
Pertinence du commentaire : 0
Par Christophe Bardy (LeMagIT)
 Le 03/01/2012 à 17:17
Un gain de performances de 100% équivaut à un doublement de la performance, donc à une division du temps d'exécution d'une tâche par deux. Si j'avais évoqué des gains en matière de temps d'exécution, j'aurais indiqué un gain de moitié. Hadoop n'a donc pas remonté le temps (en tout cas pas encore).

Cordialement,

Christophe Bardy
Noter ce commentaire
publicité
publicité
Les dossiers du MagIT

Les économies de stockage à travers une architecture unifiée


Beaucoup d’organisations ont fait le choix du stockage « unifié » à travers les systèmes Multiprotocol storage systems (MPS). Avec la croissance exponentielle du nombre de d…

Virtualisation : bénéfices, défis et solutions


Alors qu’il existe différentes voies en matière de virtualisation ce document se concentre sur 3 approches : serveurs, postes de travail et appliances. L’un des motifs de cet…
livres blancs avec LesSourcesIT.fr
Recevez les newsletters du MagIT
L'essentiel IT : L'actu IT au quotidien
événements

TechDays 2012 : développeurs et projets en avant

1 2 3 4 5   
Click Here