Cet article fait partie de notre guide: Le Who’s Who du Data Warehouse

L’essentiel sur Pivotal Greenplum

L’entrepôt de données Pivotal Greenplum propose un haut de niveau de performance en matière de requêtage et de rendement. Une technologie adaptée pour l’analyse Big Data.

L’entrepôt de données massivement parallèle Pivotal Greenplum permet de réaliser des analyses métier sur d’importants volumes de données pour utiliser dans des applications de Machine Learning ou de data science.

La plateforme combine des fonctions relationnelles et avec celles d’une base  en colonne et peut être déployée sur site, sous la forme d’appliance ou d’un service virtualisé. Les possibilités d’optimisation des requêtes de la technologie, ainsi que son intégration étroite avec les bibliothèques analytiques les plus en vue, favorise le développement d’applications très performantes.

Quelles sont les fonctions ?

Pivotal Greenplum s’adosse à une architecture dite « share-nothing » qui automatise le traitement en parallèle des données et des requêtes. Cette architecture est principalement utilisée par les grandes entreprises et le secteur public pour charger  rapidement des pétaoctets de données dans un entrepôt de données. Elle est particulièrement adaptée au Machine Learning et à l’analytique.

La plateforme propose aussi des fonctions de stockage de données polymorphique et embarque une technologie de compression performante pour optimiser les ressources de stockage. Elle peut prendre en compte des requêtes complexes via son Query Optimizer intégré. Celui-ci crée des plans de requêtes qui s’exécutent de façon optimale sur de gros volumes de données. Ses capacités analytiques avancées lui autorisent l’exécution de  batch interactifs, avec une faible latence et un gros rendement. Le framework sur lequel s’appuie la plateforme peut être étendu pour personnaliser certaines fonctions analytiques.

L’intégrité et la disponibilité des données sont garanties à travers la fabrique de Pivotal Greenplum, grâce à des fonctions de sauvegarde et de récupération par exemple. La continuité d’activité est également prise en compte, avec  une haute disponibilité native ainsi qu’ un outil de détection d’erreurs intelligent, la récupération différentielle, la sauvegarde incrémentale et totale et la récupération après sinistre. Des serveurs peuvent également être ajoutés à chaud.

Pivotal Greenplum fournit également toute une série d’outils de sécurité et d’authentification pour se caler sur les exigences et les politiques des entreprises.

Les entreprises souhaitant faire évoluer leur SI vers le Big Data ont aussi la possibilité de s’intégrer à plusieurs environnements Big Data, comme Hadoop, ou des technologies de type In-Memory.

Le système peut être géré via un unique outil de monitoring, d’administration et de gestion des workloads. La gestion des performances prend en compte aussi bien la couche logicielle que hardware.

Pivotal Greenplum fonctionne sur les plateformes Linux suivantes :

  • Red Hat Enterprise Linux 64-bit 6.x, 5.x;
  • SUSE Linux Enterprise Server 64-bit 10 SP4, 11 SP1, 11 SP2;
  • Oracle Unbreakable Linux 64-bit 5.5; et enfin
  • CentOS 64-bit 6.x, 5.x.

Licence, prix et support

Pivotal Greenplum est commercialisée avec Pivotal Big Data Suite. Elle supporte plusieurs modèles de déploiement et de distribution :

  • Sous une forme logicielle packagée. Le serveur sous Linux est à la charge de l’utilisateur.
  • Sous la forme d’une appliance, via EMC Data Computing Appliance
  • Dans le Cloud.

Pivotal Big Data Suite s’appuie sur un modèle de tarification à l’abonnement. Pivotal propose conjointement une suite complète d’outils analytiques et de gestion des données. La solution est commercialisée par Pivotal et ses partenaires. Le support est inclus dans l’abonnement.

Il existe également une version Open Source, Greenplum Database, disponible sous une licence Apache 2.0. 

Pour approfondir sur Datawarehouse

Close