Cet article fait partie de notre guide: Guide : tout savoir sur Hadoop

Ce qu’il faut savoir pour évaluer des distributions Hadoop

Avant d’évaluer une distribution Hadoop spécifique, il convient d’examiner les fonctions proposées par le fournisseur et bien comprendre si celles-ci répondent au mieux aux besoins.

Apache Hadoop est au cœur de nombreux environnements Big Data pour motoriser les applications à grande échelle, faisant usage de grands volumes de données. La variété de ses composants Open Source et des outils associés, pour capturer, traiter, gérer et analyser les données, ainsi que le coût global relativement bas des clusters Hadoop, a évidemment séduit nombre d’entreprises. Mais, comme ont déjà pu démontrer les articles précédents, le framework Hadoop a beaucoup à offrir.  Les entreprises qui souhaitent des performances plus élevées, des fonctionnalités plus robustes ainsi que du support et de la maintenance peuvent quant à elles se tourner vers des distributions commerciales du framework.

Parce que Hadoop est une technologie encadrée par la Fondation Apache et sa gouvernance Open Source, le modèle de vente des distributeurs Hadoop diffère de celui des éditeurs dits propriétaires. Le code source est ouvert ; ce qui signifie qu’il est disponible pour tout le monde. Les offres doivent au final se différencier par ce qu’elles proposent au-delà du cœur ouvert.

Après avoir identifié comment votre entreprise pouvait utiliser une distribution commerciale Hadoop, la prochaine étape consiste àexplorer les éléments ajoutés au code de base et les fonctions clés proposées par les fournisseurs.

Ce que les fournisseurs Hadoop commercialisent vraiment

Les DSI peuvent télécharger Hadoop depuis le site de la fondation et le déployer eux-mêmes sur un cluster, sans intervention de prestataires. Mais les fournisseurs Hadoop sont bien conscients que cette approche n’est pas adaptée à tous. Ils proposent donc des distributions pré-intégrées, en version communautaire et entreprise (avec davantage de fonctions et l’achat d’une licence). Mais si ces fournisseurs proposent bien un produit, que contient-il ? En d’autres mots qu’obtenez-vous lorsque vous vous engagez avec un fournisseur Hadoop ?

Ces offreurs commerciaux de solutions Open Source suivent un modèle alternatif à travers lequel les clients souscrivent à une édition entreprise du produit. Les gains sont :

  • Accès à des fonctions entreprises. La souscription permet aux clients d’avoir accès à des versions d’Hadoop qui disposent de fonctions et d’optimisations qui n’ont pas été versées à la communauté Open Source
  • Pas de restrictions. Dans certains cas, les distributions gratuites d’Hadoop comportent des limites, comme celles liées au nombre de nœuds sur lequel le système peut s’exécuter ou la quantité de données gérée. Acheter une souscription Entreprise lève justement ses restrictions.
  • Un support technique réactif. Les souscriptions Entreprise donnent accès à des ressources de support 24/7 avec des temps de réponses garantis par des SLA, selon le niveau de support souscrit.
  • Une formation avancée. Si tous les visiteurs du site ont accès à des ressources de formations, les détenteurs de licences Entreprises sont généralement éligibles à davantage de sessions de formations, plus avancées et intensives.
  •  Des experts en déploiement. Les fournisseurs Hadoop mettent à disposition une équipe de professionnels expérimentée dans le déploiement Big Data. Ceux-ci peuvent initier les premières phases de l’implémentation.

Ce qu’il faut retenir pour comparer les fournisseurs Hadoop

Les éditions entreprises embarquent tous les composants cœur de l’écosystème Hadoop : HDFS, l’environnement MapReduce pour le traitement par lot et YARN pour gérer les ressources d’un cluster. Elles intègrent différents composants Open Source tiers, comme le moteur Spark ou la base de données HBase. Toutefois, il se peut que les fournisseurs proposent des distributions avec des versions différentes de ces technologies, et que certains outils ne soient tous supportés de la même façon. Si votre entreprise souhaite utiliser une de ces technologies lors d’un déploiement Hadoop, il convient de s’assurer que la distribution les supporte, et quelle version installer.

Au-delà de ces composants, vous devez aussi comparer et comprendre comment chaque fournisseur se distingue :

  • Accès aux fonctions de classe entreprise. Certains fournisseurs Hadoop proposent des outils qui ne font pas partie de la distribution Open Source : configuration de système, performances du système, monitoring et administration. Si cela ajoute certes de la valeur à la distribution, cette intégration de composants propriétaires peut enfermer le client.
  • Des alternatives en matière de déploiement d’infrastructure. Votre entreprise a le choix de différentes options d’infrastructure : sur site, dans le Cloud ou dans des environnements virtualisés. Il vous faut réfléchir comment les distributions s’adaptent à ces différents modes.
  • Interopérabilité avec des systèmes de gestion des données. Dans la plupart des cas, l’entreprise disposera déjà de systèmes en place, comme un entrepôt de données, des outils de BI et d’analytique. Hadoop ne remplace pas ces systèmes, mais vient plutôt les augmenter et les compléter. Il est ainsi clé que l’environnement Hadoop puisse dialoguer et échanger des données avec les plateformes, comme DB2, Oracle, SQL Server, Teradata, par exemple.
  • Sécurité et protection des données. L’écosystème Hadoop n’est pas réellement mature. Il se peut que tous les composants ne répondent pas aux exigences des entreprises en matière de sécurité et de protection des données. Nombre de fournisseurs Hadoop proposent des fonctions de sécurité sous la forme d’add-ons.
  • Options de support. Evaluez les exigences en matière de support, de disponibilité et de temps de réponses.
  • Indemnisation issue d’un litige. Ce concept prend de plus en plus d’importance et garantit que les fournisseurs de technologies Open Source protègent leurs utilisateurs contre d’éventuels litiges liés à l’utilisation de leur produit
  • Performance optimisée. Les distributions entreprise peuvent être ajustées et les performances optimisées.

Une autre approche à prendre en considération, lorsqu’il faut comparer les différentes offres, est celle liée au degré de compatibilité avec la communauté Open Source et l’interopérabilité avec les produits d’autres fournisseurs. Idéalement, cela comprend le fait que les distributions Hadoop restent compatibles avec les versions Open Source du framework et les autres technologies Apache, même lorsque le code est modifié.

Toutefois, comment gérer l’interopérabilité ne fait l’unanimité chez tous les fournisseurs Hadoop.  Certains se sont réunis autour de  l’Open Data Platform Initiative, au sein de la Linux Foundation, pour développer des composants cœur standard pour Hadoop. Mais certains n’ont pas souhaité rejoindre le projet, soutenant que les problèmes  de compatibilité et d’interopérabilité sont déjà ciblés au sein d’Apache. Aligner les distributions Open Source sur un standard est assurément louable car cela permet aux utilisateurs d’avoir une certaine flexibilité dans le choix des fournisseurs.

Avant de s’engager avec un fournisseur, il est également important de connaître les types d’applications que votre entreprise compte développer et adosser à Hadoop ; pour déterminer les exigences. Il s’agit ensuite de savoir ce qui est proposé par les versions communautaires d’Hadoop et celles fournies par des fournisseurs.

Analyser tous ces facteurs devrait contribuer à faire avancer votre entreprise et à évaluer les différentes options. 

Traduit et adapté par la rédaction

Pour approfondir sur Open Source

Close