Definition

Hadoop

Cette définition fait partie de notre Guide Essentiel : La modernisation de Java : un écosystème à la manœuvre

Hadoop est un framework open source qui repose sur Java. Hadoop prend en charge le traitement des données volumineuses (Big Data) au sein d'environnements informatiques distribués. Hadoop fait partie intégrante du projet Apache parrainé par l'Apache Software Foundation.

Hadoop permet d'exécuter des applications sur des systèmes en cluster dotés de milliers de noeuds impliquant des centaines de téraoctets de données.

Son système de fichiers distribué favorise un taux élevé de transfert de données entre les noeuds et permet un fonctionnement ininterrompu du système en cas de défaillance d'un d'entre eux. Cette approche diminue le risque de panne majeure, même lorsqu'un nombre important de noeuds deviennent inopérants.

Hadoop s'inspire de Google MapReduce, un modèle logicielle qui consiste à fragmenter une application en de nombreux petits composants. Chacun de ces composants (appelé fragment ou bloc) peut s'exécuter sur n'importe quel noeud du cluster.

Doug Cutting, le créateur d'Hadoop, a baptisé l'infrastructure du nom de l'éléphant en peluche de son fils.

L'écosystème Apache Hadoop se compose du noyau Hadoop, de MapReduce, du système de fichiers distribué (HDFS) Hadoop et d'un certain nombre de projets associés, notamment Apache Hive, HBase et Zookeeper.

L'infrastructure Hadoop est utilisée par des acteurs majeurs - dont Google, Yahoo, etc. - pour des applications faisant intervenir des moteurs de recherche, de la publicité en ligne ou tout autre gestion des Big Data.

Les systèmes d'exploitation privilégiés sont Windows Server et Linux, mais Hadoop fonctionne également avec BSD.

Hadoop est aujourd'hui en version 2. Hadoop 2 apporte des nouveautés pour le traitement par flux (et plus simplement par batch).

Cette définition a été mise à jour en juillet 2015

Pour approfondir sur Big Data et Data lake

Close