Sergey Nivens - Fotolia

Hortonworks met plus de sécurité, de gouvernance et de Cloud dans Hadoop

Au coude-à-coude avec Cloudera sur le marché des solutions de Big Data Open source, Hortonworks dote sa distribution HDP de fonctions de haut niveau pour s’inscrire dans la lignée d’un Oracle.

Plus graphique, plus sécurisée, plus facile à déployer dans le Cloud... Dans sa dernière version HDP éditée par Hortonworks, la plateforme de Big Data Hadoop n’est plus un salmigondis de lignes de commandes programmables en scripts. Elle est en passe de devenir un socle applicatif de classe industrielle, manipulable par tous les métiers qui veulent prendre des décisions à la lumière des données remontées par leurs marchés.

« Nous voulons être la solution qui gère toutes les données du monde entier, comme d’autres éditeurs l’ont fait avant l’ère du Big Data et des objets connectés  », a lancé Herb Cunitz, le président d’Hortonworks, lors du Hadoop Summit 2016 européen qui se tenait mi-avril à Dublin. Il profitait de l’événement pour annoncer de nouvelles fonctions concernant l’ergonomie (essentiellement des dashboards graphiques clés en mains pour différents modules, avec des indicateurs de performances), la cybersécurité et la connectivité à des clouds externes.

Ces nouvelles fonctions font partie des modules de haut niveau mis à jour régulièrement, contrairement au cœur de la distribution HDP qui, lui, n’évolue plus qu’une fois par an, pour limiter les efforts de maintenance des DSI. 

Cloudbreak : rendre plus simple un stockage 5 fois moins cher

En ce qui concerne l’extension d’un lac de données au travers de clouds externes, que ce soit pour leurs capacités additionnelles de stockage ou de calcul, le module Cloudbreak existait déjà. Mais sa nouvelle version 1.2 le rend enfin utilisable. « La beauté de cette nouvelle version est qu’elle donne à l’utilisateur le moyen graphique pour changer de prestataire de cloud comme il veut. Il n’y a plus à se demander comment ré-importer les données que l’on a mises dans AWS pour les exporter dans Azure : le logiciel s’occupe de tout moyennant quelques clics de souris », exulte Olivier Renault, ingénieur solutions chez Hortonworks. Il indique qu’il est par exemple désormais possible de définir des seuils de charge de travail ou de capacité au-delà desquels HDP ira activer tout seul des ressources supplémentaires. 

« Le fait de pouvoir utiliser facilement des ressources cloud est important, car c’est l’un des principaux intérêts d’Hadoop par rapport aux bases SQL : on n’est plus obligé d’avoir une baie SAN. Nous avons divisé le coût du stockage par 5 en enregistrant toutes nos données sur un espace de stockage en ligne ou sur les disques d’un cluster de serveurs génériques », témoigne Michaël Bironneau, data scientist français chez l’anglais Open Energi, qui commercialise une solution d’économie d’énergie. Et, assure-t-il, cela ne cause aucune perte de performances : « avec des solutions traditionnelles, nous avions prévu une fenêtre de 30 secondes pour récolter les données, les analyser et prendre une décision. Avec HDP de Hortonworks et des données stockées en ligne, ce processus prend entre 4 et 5 secondes », se satisfait-il. 

Selon Olivier Renault, la bonne pratique financière est de stocker les données sur un cluster interne et les traiter en cloud, chez l’hébergeur qui offrira le coût d’accès et de calcul le plus intéressant. En revanche, il admet que le plein potentiel de Cloudbreak ne sera pas exploité avant un an ; pour l’heure, les entreprises utiliseraient Cloudbreak pour tester des projets en ligne avant de les mettre en production dans leur propre datacenter. « Cela dit, la seule présence de Cloudbreak permettra le moment voulu de sortir de ce datacenter sans qu’il s’agisse pour autant d’un projet de migration », insiste-t-il. 

Atlas et Ranger : des métadonnées pour la sécurité et la gouvernance 

En matière de cybersécurité, HDP inclut désormais les modules Atlas et Ranger d’Apache pour créer des règles d’accès aux données d’après les métadonnées qui en indiquent le type. Atlas sert à créer ces métadonnées et Ranger est le moteur de règles qui les prend en compte. 

« Ces efforts en cybersécurité sont essentiels pour EDF et c’est pour cela que nous nous tournons vers cette solution Hadoop. HDP est désormais autant conforme au niveau d’exigence que nous attendons pour le stockage des données que les acteurs historiques du monde SQL ; à savoir la capacité de chiffrer, d’anonymiser, d’interdire certains croisements, de contrôler très finement l’accès aux données par des personnes ou des programmes habilités. Se servir des métadonnées est par ailleurs très intéressant dans le contexte d’un entrepôt de données où l’on réunit des ensembles d’informations auparavant en silos, car cela élimine la complexité d’attribuer tels lots de données à telles équipes d’analystes », commente Damien Claveau, en charge des infrastructures Haddop chez EDF. 

« Au-delà de la sécurité, Atlas et Ranger apportent surtout de nouvelles possibilités de gouvernance. En étiquetant chaque donnée dès qu’elle entre dans le système, il devient immédiatement possible pour un opérateur de voir sur son tableau de bord d’où viennent les données, quels profils les ont générés, etc. Et de prendre en temps réel des décisions », ajoute John Kreisa, le vice-président en charge des produits chez Hortonworks. 

Le Machine Learning, l’étape d’après

Dans la foulée, HDP inclut aussi - en pré-version pour l’heure - le framework Metron d’Apache, soit une batterie de fonctions de Machine Learning utilisables par des développeurs pour écrire les processus d’accès aux données dans leurs applications. De type SIEM, Metron permet de détecter les fraudes en comparant les événements en cours à une base de connaissance des événements passés. « L’avantage majeur de Metron est que l’on n’a plus à analyser les fichiers de logs a posteriori, avec un temps de retard par rapport au moment de l’attaque », précise Olivier Renault.

Pour lui, Metron est la première étape d’une généralisation du Machine Learning dans le Big Data : « le Machine Learning est la clé pour rendre possible la prédiction de pannes ; ce que tous nos clients nous demandent ces temps-ci. Ou comment savoir qu’un incident est sur le point d’arriver et à quel meilleur moment intervenir pour l’éviter tout en minimisant les coûts et l’impact sur la production », dit-il. 

De telles prédictions de pannes demanderont de comparer les données déjà stockées par HDP à celles qui sont en train d’être ingérées dans le système, typiquement depuis des objets connectés. Hortonworks propose désormais un second produit, HDF (Hortonworks DataFlow) dédié à l’ingestion de données depuis des sources hétéroclites. HDF est issu du rachat en 2015 d’Onyara, une spin-off de la Nasa, repose sur le module Nifi d’Apache. 

Battre Cloudera en jouant la carte de l’Open Source

Vouloir marcher dans les pas d’Oracle ou de Microsoft est une chose. Mais, pour l’heure, Hortonworks doit surtout rivaliser avec Cloudera, l’autre éditeur vedette d’une distribution commerciale d’Hadoop. Selon le cabinet Forrester, Cloudera aurait pris de l’avance en termes de ventes de licences grâce, justement, à la fourniture d’outils maison pour une gouvernance et une sécurité prêtes à l’emploi.

Pierre Sauvage, consultant en Big Data chez Adaltas estime que l’intérêt d’Hortonworks est de n’offrir que des produits strictement Open Source. Un choix qui, à terme, devrait se montrer plus pérenne : « il est intéressant de noter que plus le monde Hadoop mûrit, plus Hortonworks intègre des modules fonctionnels issus de la fondation Apache qui remplacent des outils propriétaires tiers apparus au fil de l’eau pour apporter les fonctions manquantes. De fait, choisir la distribution Hadoop d’Hortonworks plutôt qu’une distribution concurrente, moins Open Source, devient de plus en plus pertinent. Car on évite de se retrouver pieds et poings liés à un fournisseur », analyse-t-il. 

D’autres visiteurs du salon reprochaient en revanche à HDP d’être moins compatible avec les scripts SQL historiques que ne l’est la distribution Hadoop de Cloudera. 

800 grands clients

Comme seuls les résultats d’Hortonworks sont publics, il n’existe pas de palmarès des ventes pour les éditeurs de distributions Hadoop. Le cabinet Forrester estime cependant que Cloudera et Hortonworks sont désormais au coude à coude en termes de clients, devant IBM, MapR et Pivotal. 

Il est à noter qu’il y a pile un an, Hortonworks, IBM et Pivotal s’étaient regroupés sous le sigle ODP (Open Data Platform) avec l’ambition de proposer une distribution commune d’Hadoop. Lors de cette édition de l’Hadoop Summit 2016, ODP n’était plus présenté que comme une entité associative marginale, ODPi (ODP Initiative) sans annonce particulière si ce n’est qu’elle planche sur la standardisation des applications Hadoop. L’éditeur Pivotal - la filiale de VMware dédiée au marché des applications et des données - vient quant à lui d’annoncer un partenariat renforcé sur HDP.

Selon Herb Cunitz, 1600 intégrateurs proposent aujourd’hui la solution d’Hortonworks, et 800 entreprises l’ont acquise. Plus un nombre incalculable d’autres qui n’ont fait que télécharger la version gratuite pour réaliser des Proofs- of-Concept (PoC) avant de passer HDP en production. Parmi les clients actuels, 55 des 100 plus grandes entreprises financières, les trois quarts des 100 plus grandes enseignes de la grande distribution, ainsi que quasiment tous les opérateurs télécoms américains. 

Pour approfondir sur Outils décisionnels et analytiques

Close