Definition

Hadoop 2

Apache Hadoop 2 (Hadoop 2.0) est la deuxième version de du framework Hadoop écrit en Java destinée au traitement des données distribuées.  

Avec l'introduction de YARN, Hadoop 2 ajoute la prise en charge des applications qui ne s'exécutent pas par lots (batch). YARN est un gestionnaire de ressources en cluster. Il permet à Hadoop de ne plus reposer uniquement sur le modèle de programmation MapReduce.

Acronyme de « Yet Another Resource Negotiator », YARN place les fonctions de gestion des ressources et de planification des tâches dans une couche distincte, sous la couche de traitement des données.

Ainsi, Hadoop 2 peut exécuter toutes sortes d'applications.

Globalement, grâce aux modifications apportées dans Hadoop 2, l'infrastructure peut prétendre à une utilisation plus large dans diverses applications d'entreprise, notamment en analyses Big Data. Il est ainsi possible d'exécuter des applications, en flux et en temps réel.

Par ailleurs, Hadoop 2 intègre de nouvelles fonctions conçues pour améliorer la disponibilité et l'évolutivité du système. A titre d'exemple, l'infrastructure a ajouté la haute disponibilité (HA) à son système de fichiers HDFS (Hadoop Distributed File System) ; une caractéristique qui apporte à Hadoop une nouvelle architecture NameNode.

Auparavant, les clusters Hadoop disposaient d'un NameNode unique qui gérait l'arborescence des fichiers HDFS et suivait le stockage des données dans un cluster. Le modèle haute disponibilité d'Hadoop 2 permet désormais aux utilisateurs de configurer des clusters dotés de NameNodes redondants. Il élimine ainsi le risque de voir un NameNode isolé devenir un point unique de défaillance, ou SPoF (Single Point of Failure), au sein d'un cluster.

Parallèlement, une nouvelle fonction de fédération HDFS permet le déploiement horizontal de clusters composés de plusieurs NameNodes opérant de manière indépendante, mais partageant un même pool de stockage de données. Comparés à ce qu'autorisait Apache Hadoop 1.x, cette configuration offre une meilleure évolutivité en matière de capacité de traitement.

Hadoop 2 apporte également une fonction de prise d'instantanés (snapshot) qui génère des copies ponctuelles et en lecture seule d'un système de fichiers, utilisables pour la sauvegarde et la reprise après désastre. Par ailleurs, la nouvelle version fournit une compatibilité binaire déterminante avec les applications MapReduce développées pour les versions 1.x d'Hadoop.

Cette définition a été mise à jour en juillet 2015

Pour approfondir sur Big Data et Data lake

Close