Guides Essentiels

Spark et SQL-On-Hadoop : vers un Hadoop augmenté

Spark, Impala, Kudu, Storm, Kafka, Pig, Hive, Arrow

Introduction

Comment imaginer aujourd’hui le monde du Big Data sans Hadoop ? Créé en 2004 à partir des travaux exploratoires de Google, puis mis en musique par Doug Cutting, la rampe de lancement Hadoop a véritablement pris son envol en 2008, année où les développements se sont davantage structurés.

En quelques années, Hadoop - et son compagnon MapReduce sans qui la technologie ne serait pas ce qu’elle est - sont parvenus à s’enraciner sur un marché du Big Data en plein essor.

Si les fournisseurs ont certes rapidement pris la mesure de ce tandem, intéressés par les capacités de clusters HDFS, les projets ont en revanche tardé à venir. Manque de cas d’usage, maturité balbutiante, ROI impossible à calculer : les entreprises ont mis le temps à comprendre la technologie et à placer Hadoop au rang des priorités de leurs investissements.

Depuis 2011, année de la version 1.0 du framework, les explorations se sont multipliées. De là ont émergé logiquement des freins dans les usages et des lacunes à l’éclosion de projets en production. En cause : la complexité de l’outil, le manque de compétence et la lenteur des traitements opérés par MapReduce, essentiellement cantonné aux traitements par lot – le fameux mode batch.

Dans un monde où la donnée n’a d’importance et de sens que lorsqu’elle est interprétée dans le bon timing, cette latence dans les traitements a rapidement symbolisé le problème principal à résoudre.

Aujourd’hui la sphère des technologies Hadoop n’a plus rien à voir avec celle de 2011. Le framework, et surtout son système de fichier HDFS, sont devenus un noyau autour duquel gravitent de nombreux de projets annexes. Leur vocation : faire atterrir Hadoop sur des terres qu’il n’avait jamais atteintes, voire pour lesquelles il n’avait pas  été conçu.

Temps réel, Machine Learning et SQL-On-Hadoop sont désormais ciblés, car ce sont désormais là que se trouvent les cas d’usage en matière d’analytique.

C’est dans ce contexte que s’inscrivent Spark, Impala, Kudu, Storm, Kafka, Pig, Hive et Arrow – le petit dernier – tous développés pour augmenter Hadoop et en faire un outil qui correspond davantage aux entreprises. Un cheminement vers une démocratisation d’Hadoop, en quelque sorte, à base de temps réel et de SQL. Ce Guide Essentiel vous en explique la mécanique.

Télécharger gratuitement ce dossier au format PDF

1Un framework augmenté-

Comment les fournisseurs poussent Hadoop vers de nouvelles sphères

Actualités

Hadoop : les projets qui ont le vent en poupe

Doug Cutting, celui par qui Hadoop est arrivé, est revenu avec LeMagIT sur les projets qui montent dans la sphère Hadoop, sur les cas d’usages types et sur les rapports de la société avec Intel. Echanges avec ce géant du Big Data. Lire la suite

Actualités

Drill, prêt pour la production

Le projet Open Source, chapeauté par la fondation Apache, de moteur de requête interactive compatible SQL, pour bases NoSQL, HDFS et services de stockage Cloud, débarque dans sa version 1.0. Lire la suite

Actualités

MapR intègre Apache Spark à sa distribution Hadoop

MapR vient d’annoncer l’intégration de la pile de traitement en mémoire vive Apache Spark à sa distribution Hadoop. Lire la suite

Actualités

Hadoop : Cloudera veut combler le fossé entre HBase et HDFS

Avec Kudu, Cloudera veut préparer Hadoop à la gestion et au traitement temps réel des données. Un nouveau moteur de stockage pour Hadoop qui entend combiner le meilleur des deux mondes HDSF et HBase. Lire la suite

Actualités

Apache Arrow : un turbo standard pour l’analytique In-Memory

Arrow fournit une représentation standard du In-Memory en colonne pour accélérer les traitements analytiques. Il s’appuie également sur les instructions SIMD des processeurs. Lire la suite

Actualités

Avec Stinger.Next, HortonWorks veut rapprocher Hive du temps réel

Le projet Stinger.Next a pour objectif de poursuivre les améliorations à Hive pour le doter de capacités quasi temps-réel et améliorer sa conformité au standard SQL 2011. Lire la suite

Actualités

Spark, la nouvelle corde à l'arc Big Data d'IBM

Big Blue a annoncé contribuer SystemML à la communauté Open Source Spark et dédie 3 500 chercheurs au projet. IBM ouvre un centre Spark pour y former des data scientists. Lire la suite

Actualités

Avec HANA Vora, SAP valide à son tour le choix de Spark

Pas simple de faire discuter un Data Scientist avec un analyste venu du décisionnel. Chacun a ses propres outils, ses propres données et n'accepte de parler à son rival qu'au travers de batchs. Deux mondes que SAP souhaite aujourd'hui réconcilier. Grâce à HANA, bien évidemment. Lire la suite

Actualités

Pivotal finalise l’ouverture de Greenplum et Hawq

Pivotal veut rompre avec les traditions de l’entrepôt de données en officialisant la mise à l’Open Source de sa base MPP Greenplum. Hawq et MADlib rejoignent également la Fondation Apache. Lire la suite

Actualités

Hortonworks muscle ses capacités d’automatisation de flux

L’expert Hadoop se paie la société Oxyara, premier contributeur du projet Open Source NiFi. Celui-ci servira de socle à une solution de gestion de flux massifs, taillée pour l’Internet des objets. Lire la suite

Actualités

HP adapte Vertica aux flux de données en temps réel

La version Excavator de la base de données supporte Kafka. HP promet le support futur de Spark. Lire la suite

2Temps réel et Machine Learning-

Spark rebat les cartes du monde Hadoop

Conseils IT

Spark contre MapReduce : quelle solution pour les entreprises

La jeune technologie Spark doit remplacer MapReduce dans les architectures Big Data. Mais où en est-on ? LeMagIT fait le point. Lire la suite

Actualités

NoSQL et Hadoop : changement de braquet en 2015

Affirmer que les technologies Big Data ont été au centre des préoccupations en 2015 n’est pas sous-estimé. Loin de là. Les utilisateurs, face à leurs projets Hadoop ou NoSQL, ont été confrontés à une kyrielle de nouvelles technologies. Lire la suite

Actualités

Entretien avec Stephen Brobst, CTO de Teradata

A l’occasion de la conférence Teradata Universe 2015, qui s’est tenue cette semaine à Amsterdam, le CTO du groupe Stephen Brobst s’est entretenu avec la rédaction sur la stratégie de Teradata quant à la création d’un écosystème autour de ses technologies et de la position d’Hadoop par rapport à l’entrepôt de données. Lire la suite

Actualités

Spark commence à se passer d’Hadoop

Spark semble désormais voir sa croissance grandir au delà d’Hadoop et suivre un chemin parallèle. Le nombre d’instances seules dépasse celui de Spark sur Yarn ou HDFS. Lire la suite

Actualités

Quand NoSQL veut se rapprocher de Spark

Tous les yeux se tournent certes sur le tandem Spark – Hadoop, mais le framework Spark dispose aussi de connecteurs pour le monde NoSQL qui peuvent déboucher sur une nouvelle classe de traitement analytique. Lire la suite

3Big Data-

Hadoop : une rampe de lancement vers d’autres usages

Projets IT

Comment Mappy utilise Hadoop, Spark SQL, Hive et MapReduce

Depuis près de 3 ans, Mappy a doté sa BI d’une brique Big Data couplée à la DataViz de Tableau Software. Une brique qui ne cesse de monter en puissance devant l’afflux de données et les exigences de ses utilisateurs. Lire la suite

Projets IT

Chronopost prend le virage Big Data avec Cassandra

Le service de livraison Chronopost a recours à des systèmes de bases de données NoSQL pour améliorer ses services ainsi que la fidélité de ses clients. Lire la suite

Projets IT

Pour Neopost, Hadoop est d’abord une base de données plus rapide

Neopost, le numéro deux mondial des équipements de salle de courrier, a testé le Big Data avec Hadoop, dans le but d'analyser ses données plus rapidement qu'avec ses bases SQL traditionnelles. Lire la suite

Actualités

Le site de jeux en ligne King.com passe à l’analytique Big Data avec Hadoop

King.com a choisi de s’équiper d’un environnement Hadoop pour analyser au plus près les comportements des joueurs et gagner en réactivité sur sa plate-forme. Lire la suite

Close