sheelamohanachandran - Fotolia

L’essentiel sur Microsoft Azure HDInsight

Azure HDInsight est une implémentation d’Hadoop sur la plateforme Cloud de Microsoft. Le service donne accès à un ensemble de composants Open Source pour traiter et analyser des Big Data.

Microsoft Azure HDInsight (HDI) correspond en fait à la déclinaison du framework Hadoop pour la plateforme Cloud de Microsoft Azure. Comme toutes les piles Hadoop hébergées dans le Cloud, celle-ci a été développée pour faciliter la mise en place rapide et à moindre coût de clusters Hadoop, ainsi que d’outils de traitements et d’analyses Big Data sur la plateforme de Microsoft. L’administration des couches d’infrastructure est donc prise en compte par l’éditeur. Azure HDInsight donne la possibilité aux utilisateurs de redimensionner leur environnement en fonction de leur besoin en ajoutant de nouveaux nœuds pour absorber les accroissements d’activités et de demandes, ainsi que les ressources associées – du téraoctet au pétaoctet.

Le service s’appuie sur la distribution Hadoop de l’éditeur Hortonworks,  Hortonworks Data Platform (HDP) et propose également des implémentations d’Apache Spark, HBase, Storm, Pig, Hive, Sqoop, Oosie et Ambari ainsi que d’autres solutions de la fondation Apache. D’autres composants peuvent être installés par le biais de scripts. La solution en propose certains, pour déployer et configurer Hue, Giraph, R et Solr. HDInsight est également capable de s’intégrer avec les outils de BI, comme Power BI, Excel, SQL Server Analysis Services et SQL Server Reporting Services.

Microsoft Azure HDInsight : les fonctions

La mise en place d’un cluster HDI s’effectue via le portail Azure. On y indique le type de cluster et les composants, l’OS du cluster (Linux ou Windows) et la version HDInsight à utiliser. Le type de cluster détermine le nombre de nœuds de base et leur rôle respectif dans le cluster. Microsoft détaille les configurations pour chaque type.

HDInsight supporte plusieurs versions de clusters Hadoop, elles-mêmes liées à des versions de HDP. Par défaut, HDInsight 3.2 repose sur HDP 2.2. Cette version comprend ainsi Apache Hadoop et  YARN (2.6.0), Apache Tez (0.5.2), Apache Pig (0.14), Apache Hive and HCatalog (0.14.0), Apache HBase (0.98.4), Apache Sqoop (1.4.5), Apache Oozie (4.1.0), Apache Zookeeper (3.4.6), Apache Storm (0.9.3), Apache Mahout (0.9.0), Apache Phoenix (4.2.0) et Apache Spark (1.3.1).

Six autres versions HDInsight sont également supportées : HDI 1.6, HDI 2.1, HDI 3.0, HDI 3.1, HDI 3.3 et HDI 3.4. Chacune repose sur des versions différentes de HDP : HDP 1.1, HDP 1.3, HDP 2.0, HDP 2.1, HDP 2.3 et HDP 2.4, respectivement. Et chacune des versions différentes d’Hadoop et des projets apache associés.

L’un des points clés est que les développeurs ont la possibilité d’associer leur IDE Visual Studio à leur cluster HDI via Azure SDK for.NET. Cela est possible avec HDInsignt Tools for Visual Studio et le driver Microsoft Hive Open Database Connectivity. Le SDK (Software Development Toolkit) permet de se connecter aux bases de données Hive et aux espaces de stockage associés.

Microsoft Azure HDInsight : tarifs et support

La facturation démarre à la création du cluster et s’arrête à sa suppression.  Microsoft tient à disposition un calculateur de prix qui permet d’évaluer les coûts de mise en place et de gestion opérationnelle. Notons qu’en fonction du type de cluster, le nombre de nœuds peut différer. La tarification est calculée à l’heure, au nœud et selon le type d’instance – compute et mémoire. Des coûts supplémentaires sont appliqués pour le stockage et le transfert de données.

Microsoft propose une offre d’essai gratuite pendant 30 jours ainsi qu’un crédit de 200 dollars pour Azure. Après ces 30 jours, un abonnement à Azure est obligatoire.

Plusieurs niveaux de supports sont disponibles sur Azure. Le support d’Hadoop est effectué par Hortonworks.

Pour approfondir sur Big Data et Data lake

Close