Conseil

L’essentiel sur Amazon Elastic MapReduce

Amazon EMR propose de mettre en place un cluster Hadoop dans le Cloud et de s’appuyer sur la puissance et la scalabilité de l’infrastructure d’AWS.

par

Abie Reifer, DecisionWorx

Publié le: 21 avr. 2017

Amazon Elastic MapReduce (EMR) propose aux utilisateurs une implémentation Cloud d’Hadoop, qui permet d’analyser et de traiter de grands volumes de données. Bâti au-dessus des services d’AWS, EMR s’appuie sur EC2 et S3 pour accélérer le provisioning de cluster Hadoop.

Avec l’élasticité du Cloud d’AWS et son outillage, les utilisateurs peuvent dimensionner de façon temporaire un cluster Hadoop dans le Cloud pour répondre à un pic de demandes par exemple, ou de traitements analytiques. L’un des éléments clés d’EMR est qu’il donne la possibilité de concevoir soi-même ses workflows sans avoir à configurer le cluster. L’ensemble est facturé logiquement en fonction de l’usage.

Les fonctions d’Amazon MapReduce

Amazon EMR regroupe plusieurs projets Open Source, un ensemble de composants pour monitorer et gérer les ressources d’un cluster et d’autres qui permettent d’interopérer avec d’autres services de la marque.

Ces projets Open Source sont :

Apache Hadoop 2.7.1
Apache Hive 1.0.0
Apache Mahout 0.11.0
Apache Pig 0.14.0
Apache Spark
Hue
Ganglia 3.7.2

Le service propose aussi une option : utiliser la distribution Hadoop de MapR à la place d’Apache Hadoop.

Plusieurs systèmes de fichiers sont supportés par EMR pour traiter les données. Cela comprend HDFS (Hadoop Data File System) pour les systèmes en local et à distance et les buckets S3 via EMR File System. EMR peut également s’intégrer aux autres services AWS, comme Dynamo DB, une base NoSQL, Amazon RDS (base de données relationnelle), Amazon Glacier et Amazon RedShift (Entrepôt de données) et AWS Data Pipeline (migration de données).

Parmi les fonctions essentielles d’AWS Elastic MapReduce, on retrouve :

Provisioner un cluster EMR. Une console d’administration passe en revue l’ensemble du processus de mise en place et d’auto-configuration d’une instance EMR. Via cette console, les utilisateurs peuvent également sélectionner les composants à installer, le type d’instances pour les nœuds du cluster, les politiques d’accès et de contrôle du cluster.
Charger les données dans le cluster. Les données sont généralement transférées sur un bucket S3 et rendues disponibles pour traitement par le cluster EMR. Les utilisateurs ayant des pétaoctets de données ont la possibilité d’avoir recours à AWS Snowball, une appliance qu’AWS envoie à l’utilisateur que ce dernier renvoie avec ses données, ou encore Data Connect, qui établit une connexion haut-débit entre le datacenter de l’utilisateur et celui d’AWS.
Monitorer et administrer. Amazon EMR collecte des indicateurs qui permettent de suivre et de mesurer l’état fonctionnel du cluster. S’ils sont accessibles en lignes de commande, via le SDK ou des APIs, AWS les a inclus à sa console d’administration. A cela s’ajoute CloudWatch, qui, utilisé avec Ganglia, monitore le cluster.

La tarification d’AWS Elastic MapReduce

AWS a la même approche que pour ses autres services. Les utilisateurs paient à l’heure et en fonction du type d’instance utilisée. Les instances ponctuelles (Spot Instances) peuvent être mises en place pour tous les nœuds ou certains nœuds du cluster. Les tarifs démarrent à 0,011 dollar l’heure à 0,27 dollar par heure.

L’essentiel sur Amazon Elastic MapReduce

Amazon EMR propose de mettre en place un cluster Hadoop dans le Cloud et de s’appuyer sur la puissance et la scalabilité de l’infrastructure d’AWS.

Les fonctions d’Amazon MapReduce

La tarification d’AWS Elastic MapReduce

Pour approfondir sur Big Data et Data lake

Data Lake : soutenu par Uber, le projet Apache Hudi gagne en maturité

Cloudera vs AWS EMR : quelle distribution Hadoop choisir pour vos projets Big Data

Les principales distributions Hadoop sur le marché

Microsoft dote Azure d’un service Spark-as-a-service avec Databricks