Hortonworks aligne HDP sur les processus des entreprises

Le spécialiste Hadoop explique sa décision de découpler le cycle de mise à jour du moteur premier de sa plateforme de celui des projets annexes comme Spark.

par

Cyrille Chausson, Rédacteur en Chef

Publié le: 08 mars 2016

La semaine dernière, Hortonworks a décidé de modifier la façon dont il comptait mettre à jour et distribuer les différents composants de sa plateforme Hadoop. Dès la version 2.4 de HDP (Hortonworks Data Platform), le spécialiste découplera le moteur de sa plateforme des autres services proposés. En clair alors que les composants cœur d’Hadoop comme HDSF, YARN et MapReduce, entrent dans un cycle de release annuel, très structuré, celui de Spark, Hive, HBase ou encore Ambari, conservent leur cycle en continu. Un nouveau modèle dont la vocation est bien d’aligner HDP sur les processus classiques et bien établis des entreprises.

Ce changement de cadence marque une rupture chez Hortonworks. Jusqu’alors, la société mettait à jour la version d’Hadoop inclus à sa plateforme à chaque nouvelle version. Une cadence qui imposait aux utilisateurs de remettre à jour leurs clusters.

Avec ce modèle de distribution, il s’agit justement de chercher la stabilité. « L’idée est en effet de rentrer dans le mode de l’ODP (Open Data Platform, dont la vocation est proposer un socle Hadoop standard) et de sortir une release une fois par an les composants d’Hadoop majeurs, comme HDFS, YARN ou encore MapReduce », explique Olivier Renault, Ingénieur Solutions au sein de Hortonworks, rencontré à l’occasion de Big Data Paris.

Et cela vise aussi à répondre à un besoin organisationnel des projets dans les entreprises. A savoir que les projets reposent sur plusieurs équipes avec des considérations différentes voire disparates en termes de releases. « Cela est certes un bienfait côté gouvernance, mais dans le cas d’un projet composé de 5 équipes sur un unique cluster, l’équipe 1 veut un Spark 1.4, une autre 1.5. et une 3^e qui souhaite un Hive 1.2 », raconte encore Olivier Renault. « Et Le problème avec un cluster multi-tenant : vous avez besoin de tous les moteurs. En proposant ainsi un socle stable qui est mis à jour annuellement, cela permet d’une part de stabiliser l’ensemble, mais aussi de faire tourner différents moteurs à différentes versions. »

Suivre les cycles des entreprises

Evidemment, en proposant un cycle de release régulier et allégé, Hortonworks entend bien s’aligner sur les processus des entreprises. « Aujourd’hui, Hadoop est une technologie qui fonctionne, mais le monde de l’entreprise a du mal à l’implémenter dans leurs processus. » Et sur le terrain : « on essaie de bloquer les processus traditionnels pour faire fonctionner Hadoop », commente-t-il.

Selon lui, il faudrait considèrer Hadoop comme « un environnement à part entière qui a besoin d’un modèle de gestion et de gouvernance complétement différent du reste des environnements ». Le traditionnel cycle développement, test, pré-production et enfin production a en effet fait long feu avec Hadoop.

Collaboration avec HPE pour accélérer Spark

Dans le cadre de la sortie de HDP 2.4, Hortonworks a aussi annoncé un partenariat avec HPE portant sur Spark. Des travaux ont ainsi été réalisés pour augmenter les performances du framework. « HPE a ré-écrit un composant clé de Spark qui a permis d’accroitre les performances du framework, explique- Olivier Renault. Un gain multiplié par 10 est ainsi promis, confie-t-il. Cela n’est pas lié à une technologie HPE côté hardware.

En fait, dans le cadre de partenariat, Hortonworks, très implanté dans la communauté Hadoop et Spark, a joué le rôle de relai entre HPE et cette même communauté. « On a travaillé avec HPE en amont pour s’assurer que leur projet avait du sens et si cela était aligné sur le projet Spark. On a également contribué avec eux. Le code a ensuite été proposé à la communauté. » Pour mémoire, Hortonworks a également contribué activement aux développements de HDP (Hortonworks Data platform) pour les environnements Windows et Azure.

Hortonworks aligne HDP sur les processus des entreprises

Le spécialiste Hadoop explique sa décision de découpler le cycle de mise à jour du moteur premier de sa plateforme de celui des projets annexes comme Spark.

Suivre les cycles des entreprises

Collaboration avec HPE pour accélérer Spark

Pour approfondir sur Big Data et Data lake

Mort d’Hadoop : le marché se trompe selon le TOSIT

Les principales distributions Hadoop sur le marché

MapR se vend à HPE : vers l’hiver des pure-players du Big Data

Big Data Paris 2019 : la fusion Cloudera - Hortonworks prend forme en France