Cet article fait partie de notre guide: Spark et SQL-On-Hadoop : vers un Hadoop augmenté

Pivotal finalise l’ouverture de Greenplum et Hawq

Pivotal veut rompre avec les traditions de l’entrepôt de données en officialisant la mise à l’Open Source de sa base MPP Greenplum. Hawq et MADlib rejoignent également la Fondation Apache.

Fin septembre, Pivotal a tenu sa promesse de placer dans l’Open Source certaines briques clés de sa pile Big Data, comme il l’avait annoncé en février dernier. Incrémentant d’un part un écosystème Hadoop de deux nouveaux projets, et surtout livrant à la sphère de l’Open Source une technologie d’entrepôt de données massivement parallèle. De quoi alors rompre avec l’ADN classique du secteur peu aguerri à l’ouverture du code.

L’arrêt de la commercialisation de certaines des technologies Pivotal sous licences propriétaires remonte à février dernier. La société, conscient que le modèle Open Source et son développement communautaire devient un standard de fait dans le monde du Big Data et Hadoop, a décidé d’ouvrir le code de sa base de données massivement parallèle Greenplum MPP ainsi que deux de ses technologies maison, Hawq (un moteur SQL pour Hadoop) et MADlib, une bibliothèque d’algorithmes pour le Machine Learning. La technologie NoSQL In-Memory de Pivotal, GemFire, a quant à elle déjà été versée dans la communauté Open Source (sous le nom de code Geode).

Fin septembre, ce sont donc les derniers pans de cette stratégie qui ont été finalisés. L’ensemble de ces composants se retrouvent tous désormais placés dans l’incubateur de la très rigoureuse Fondation Apache. Un choix évident pour Alexandre Vasseur,  Manager Field Engineering, Europe du Sud chez Pivotal, la fondation Apache étant le havre de paix d’Hadoop, il est donc normal d’y associer un projet Hawq qui y est étroitement associé.

Hawq et Greenplum partarge la même équipe

Hawq correspond en fait à la vision du moteur SQL-on-Hadoop de Pivotal, né dans ses laboratoires en 2013. La société précise s’être appuyé sur son expertise acquise avec Greenplum et PostgreSQL – sur laquelle cette dernière s’adosse.  Ce moteur a la particularité d’effectuer des requêtes interactives en SQL – un langage où les cas d’usage sont très importants en entreprise, constate Alexandre Vasseur -,  et ce, en natif dans HDFS, tant en lecture qu’en écriture.  De son côté MADlib est un moteur de Machine Learning SQL pour le Big Data, qui peut donc fonctionner de pair avec Hawq.

A cette équation, Pivotal y associe donc Greenplum. Une base désormais Open Source qui partage les mêmes équipes d’ingénierie de Hawq ; confie encore Alexandre Vasseur, il est donc logique de les associer dans la même fondation. Surtout, en plaçant cette technologie qui fait tourner le New York Stock Exchange, comme le précise le responsable Pivotal, dans l’Open Source,  l’éditeur vient changer un peu la donne du secteur de l’entrepôt de données et de ses ténors, à l’image d’Oracle ou encore de Teradata. Un secteur dont l’ADN n’est pas lié à l’Open Source, constate-t-il. « Comme celui du marché des serveurs d’applications Java il y a quelques années », dont on se rappelle aujourd’hui la bascule du marché vers l’Open Source.  Avec cette ouverture, Pivotal compte aussi rompre les cycles liés au hardware et au final « casser l’enfermement des appliances ». Comme un pavé dans la mare, donc.

Pour approfondir sur Outils décisionnels et analytiques

Close