Sergey Nivens - Fotolia

SAP HANA et Big Data : une stratégie liée à Hadoop et l’Open Source

Avec le moteur HANA Vora, il est devenu possible de connecter HANA et le monde des frameworks Open Source très en vogue dans le Big Data, à commencer par Hadoop et Spark.

Il est un constat : la quantité de données générées à l’année est en train d’exploser. Pour traiter ces gros volumes, émanant des applications d’entreprises, ou encore ceux générés par des sources externes, les entreprises doivent se doter de plusieurs outils analytiques. Certaines se tournent aujourd’hui vers HANA et ses outils Big Data.

« Le Big Data ne peut que progresser et s’étoffer, avec des sources de données toujours plus importantes, à la fois internes et externes », souligne un rapport du cabinet Forrester Research (« Ultra-Fast data access is the key to unleashing full big data potential » ). 

Les entreprises doivent donc mettre en place « une stratégie moderne en matière d’analyse de données. Celle-ci doit proposer une couche d’accès aux données en temps réel et permanente à toutes les données pertinentes, quelle qu’en soit la source », note encore le rapport.

Pour répondre à cela, SAP investit pour fournir aux métiers des outils analytiques avancés qui reposent sur son système de base de données en colonne et In-Memory HANA, explique Anne Moxie, analyste sénior au sein du cabinet de conseil Nucleus Research.

Un point que partage d’ailleurs Werner Hopf, CEO de Dolphin Enterprise Solutions, un partenaire SAP localisé aux Etats-Unis. « Ces deux ou trois dernières années, SAP a travaillé à étendre les capacités d’HANA, pour que la base puisse être utilisée comme socle pour les systèmes transactionnels », assure-t-il.

Par exemple, en septembre dernier, SAP a annoncé HANA Vora, un nouveau moteur de requêtage en mémoire pour Hadoop destiné aux entreprises qui doivent gérer des systèmes Big Data distribués, explique à son tour Anne Moxie. 

Toutefois, telle quelle, HANA ne convient pas idéalement à de très larges volumes de données, car il n’est pas rentable de placer de grandes quantités de données en mémoire, soutient John Appleby, directeur général de Bluefin Solutions, un partenaire SAP britannique. « Nous sommes donc ravis que SAP se soit rapproché d’Hadoop. »

HANA Vora, principal outil Big Data de HANA

HANA Vora, disponible depuis mars, permet ainsi aux entreprises d’analyser des données stockées aussi bien dans Hadoop que dans des systèmes d’entreprise ou d’autres sources distribuées, si l’on en croit SAP. HANA Vora s’appuie sur Apache Spark – que SAP a adapté pour sa plateforme -  pour proposer des capacités analytiques interactives sur les données (internes et stockées dans Hadoop), afin de pouvoir intégrer d’avantage d’éléments dans les analyses. 

« Pour caler HANA sur les projets Big Data, SAP a rapproché étroitement HANA des données Hadoop », commente Anne Moxie. « Connecter différentes sources de données et associer les données de l’entreprise à celles stockées dans Hadoop permet d’avoir une vraie vue unifiée. Avec cela, les data scientists ont accès à toutes les données pour leurs travaux ».

CenterPoint Energy, un distributeur de gaz naturel, basé à Houston, au Texas, est l’un des premiers clients SAP à avoir implémenté HANA et HANA Vora pour rassembler ses données, stockées dans un environnement très distribué. 

Avec Hadoop, CenterPoint Energy peut réduire les coûts associés à l’augmentation des capacités de stockage, et avec Vora, exploiter l’analytique pour prendre de meilleures décisions, soutient SAP. Il faut dire que CenterPoint Energy collecte des données issues de ses capteurs toutes les 15 minutes. Des rapports sur les niveaux d’utilisation de l’énergie sont générés. De quoi en effet accroître les coûts en matière de stockage. 

En 6 semaines, SAP et CenterPoint Energy ont développé un environnement de test qui a traité plus de 5 millions de données avec Hadoop, HANA et HANA Vora, affirme encore SAP. Le distributeur a finalement choisi d’implémenter HANA et de capitaliser sur la technologie SAP. « Nos premiers tests ont prouvé que le tandem HANA et HANA Vora était la bonne solution pour faire évoluer notre gestion opérationnelle », explique Gary Hayes, CIO et vice-président de CenterPoint Energy, dans un communiqué.

HANA Vora permet certes de gérer des données tant structurées que transactionnelles, affirme Irfan Khan, CTO chez SAP. « Mais  en déployant Vora sur un cluster Spark, et sur un stockage Hadoop, nous pouvons opérer plusieurs types de tâches à partir de HANA », poursuit-il. Le résultat est « une vision bien plus cohérente des activités en cours ».

HANA Vora est un « citoyen de premier ordre », de Spark. Cela permet à SAP de pousser certaines workloads analytiques très spécifiques dans Spark, ou de récupérer des informations contextuelles au sein du cœur transactionnel pour avoir des indicateurs plus performants sur les clients, explique aussi Irfan Khan.

En matière d’analyse Big Data, la principale difficulté avec les systèmes In-Memory comme HANA est le rapport coût / valeur, commente de son côté Werner Hopf de chez Dolphin. La mémoire principale est coûteuse et les entreprises atteignent rapidement un volume de données tel que les coûts dépassent les gains obtenus avec l’analytique.

C’est pourquoi le support d’Hadoop était clé pour faire de HANA un composant du Big Data, relève-t-il. Intégrer certains modules de base de données HANA dans le front-end analytique HANA Vora et disposer cela au dessus d’Hadoop et de Spark « permet aux client d’effectuer des analyses très performantes sur des données stockées dans de grands lacs de données Hadoop », ajoute-t-il.

Hadoop et Spark, essentiels pour HANA dans le Big Data

Selon Anne Moxie, associer HANA Vora à Hadoop et Spark représente une étape clé qui permet aux entreprises d’avoir accès à toutes leurs données. Avec la promesse de l’Internet des objets, Spark sera très utile pour les traitements distribués et l’extraction de données. « Spark est très critique pour les applications liées à l’IoT, et l’analytique associé, mais HANA Vora a la capacité de faciliter nombre de ces projets, en permettant aux entreprises de pouvoir analyser plus simplement leurs données », affirme-t-elle.

 Exemple chez un client SAP, du secteur de l’agriculture. Celui-ci s’appuie sur des capteurs installés sur ses terres ainsi que sur des images satellites pour prédire les rendements de son sucre de canne. Les données issues de ces capteurs ainsi que les images satellites sont stockées dans Hadoop et analysées par HANA Vora et HANA – celle-ci est utilisée pour effectuer des analyses prédictives censées optimiser l’usage d’eau et d’engrais et obtenir de meilleurs rendements. 

Pour John Appleby (Bluefin), ses clients sont très intéressés par Vora pour gérer le cycle de vie de l’information (Information Lifecycle). Les entreprises utilisent ainsi l’ERP de SAP ou une solution identique et ils souhaitent placer leurs informations en mode lecture seule pour des raisons légales ou métier dans des outils de stockage dits « froids ». Il s’attend à ce que SAP clarifie sa feuille de route en matière de gestion du cycle de vie de l’information en septembre.

Mais pour Irfan Khan, la stratégie Big Data de HANA chez SAP va aussi porter sur l’intégration plus étroite avec l’Open Source, comme avec Spark. « En soi, cela est très pertinent pour nos clients, car aucun d’entre eux ne veut travailler avec des données en silo. Ils veulent disposer d’une vue unifiée et cohérente et c’est exactement ce que nous faisons », conclut-il.

Traduit et adapté par la rédaction

Pour approfondir sur Open Source

Close