Forrester : il est temps de faire émerger un organisme de standardisation pour Hadoop 

Le 05 octobre 2011 (08:19) - par Searchdatamanagement.com

Imprimer Envoyer par e-mail

Rubriques : Gestion et administration du Datacenter Tags : decisionnel - opensource - hadoop - analyse

Avec tout le bruit médiatique qui entoure Hadoop, il est facile d'oublier les obstacles majeurs à l'adoption du framework Open Source Hadoop ainsi qu'au "Big Data", nous rappelle James Kobielus, un analyste spécialisé dans le Data Management chez Forrester. Ces obstacles ? Le coût élevé du stockage, nécessaire pour appréhender les nombreux téra-octets de données et le manque de standard d'intéropérabilité pour Hadoop.

SearchDataManagement s'est entretenu avec James Kobielus afin de faire la lumière sur l'adoption d'Hadoop. Il revient sur les contraintes de stockage liées à l'analyse des données en volume et explique pourquoi, selon lui, un organisme de standards aiderait Hadoop à franchir quelques niveaux en terme d'adoption. En voici quelques extraits.

SearchDataManagement : Hadoop et le Big Data ont occupé le haut de l'affiche ces derniers temps. Alors pourquoi tout le monde ne s'y met pas ?

James Kobielus : Quel que soit le moyen utilisé pour implémenter des outils analytiques de type Big Data, qu'il s'agisse d'un datawarehouse ou d'un cluster Hadoop, des petabytes ou plusieurs centaines de terabytes de données doivent être stockés. Cela coûte cher. Le facteur bloquant dans cet univers du Big Data est le prix du stockage. Combien cela coûte-t-il ? Quelle quantité de données pouvez-vous vraiment vous permettre de stocker, de façon déconnectée, quel est le moyen de stockage meilleur marché, et quid des bandes... etc.

SearchDataManagement : Avez-vous déjà rencontré des early daopters d'Hadoop qui analysent des petabytes de données ?

J. K : La plupart des clusters Hadoop, dans le monde réel, ne gèrent pas des volumes de données de l'ordre du petabyte. Beaucoup sont plus prés de centaines de terabytes. Mais parmi les projets d'implémentation en cours, nombreux ont été ceux qui ont affirmé que le stockage serait, justement, une véritable problématique, s'ils avaient à gérer un pétabytes de données. C'est la raison pour laquelle il n'existe pour l'heure qu'un nombre réduit de datawarehouses ou encore de plate-formes traditionnelles gérant un petabyte de données. C'est encore trop cher. 

SearchDataManagement : Quel autre facteur joue un rôle dans l'adoption d'Hadoop et du Big Data ?

J. K : L'ensemble de l'éco-système Hadoop est encore immature. Soit la majorité des éditeurs de solutions de Datawarehouse ne disposent pas de leur propre distribution, soit ils en possèdent une mais son intégration au sein de leurs outils de datawarehouse n'est pas complète. Et c'est bien un indicateur d'immaturité.

SearchDataManagement : Existe-t-il d'autres signes d'immaturité ?

J. K : La communauté Hadoop manque de standardisation. En fait, c'est standardisé, au même titre que le sont les projets Open Source. A savoir, une réunion d'entreprises, et de développeurs, un développement collaboratif d'un logiciel et et une mise à l'Open Source. Mais ce modèle ne comprend pas de forme de standardisation officielle ni de processus de ratification. De nombreuses personnes, à la fois dans la communauté Hadoop et plus globalement dans l'Open Source, pensent que cette standardisation et ratification ne sont pas de bonnes méthodes. Je respecte ce point de vue. Mais une partie du problème réside dans le fait que sans standardisation, les entreprises qui souhaitent implémenter la solution risquent gros.

SearchDataManagement : Et pourquoi est-ce risqué ?

J. K : Le fait, par exemple, qu'il n'existe pas d'architecture de référence commune de clusters Hadoop - une architecture de référence qui définirait clairement les interfaces pour se plugger à la couche de stockage et des interfaces standards pour faire intéropérer les différentes implémentations de MapReduce. Il n'existe pas de framework de référence commun équivalent à celui qu'a développé la communauté SOA il y a 10 ans, autour de technologies telles que SOAP, WSDL ou UDDI, afin de promouvoir l'intéropérabilité dans l'ensemble du monde des services Web. Avec Hadoop, il n'y a pas de test d'interopérabilité ni de certification, pas de sceau ou d'approbation en matière compatibilité. Cela peut devenir critique pour nombre de secteurs. Prenons l'exemple d'une grande entreprise qui a déployé des clusters Hadoop dans plusieurs de ses départements et qui souhaite les faire dialoguer ou les fédérer. Il n'existe pas encore de standard en matière de fédération de clusters Hadoop. Pas de spécification commune pour la manipulation de données en temps réel, également.

SearchDataManagement : Comment ces early adopters contournent ces problèmes d'intéropérabilité ?

J. K : Si vous souhaitez mettre en place un vrai système analytique en temps réel dans un environnement distribué Hadoop, avec plusieurs distributions différentes, vous allez devoir écrire de nombreuses lignes de code spécifiques… sans avoir de garantie d'un bon fonctionnement. Le risque est important dans ce cas. Je crois qu'il est temps de commencer à réfléchir à la création d'un framework de référence commun en matière de tests d'intéropérabilité et de certification. De préférence, un framework élaboré en collaboration avec des organismes de standardisation officiels qui pourraient alors ratifier quelques briques, comme par exemple les version de HDFS, le système de fichier coeur utilisé dans la plupart de ce type de clusters.

D'aprés un article de Mark Brunelli, SearchDataManagement, traduit de l'anglais par la rédaction.

livres blancs avec LesSourcesIT.fr

Sécuriser les terminaux mobiles des utilisateurs dans l’entreprise

Les appareils mobiles, tels que les smartphones et les tablettes tactiles, permettent à un nombre croissant d’employ…


L’efficacité opérationnelle et la réduction des coûts grâce à une approche intégrée de la veille sécuritaire

La mise en place d’un programme de veille sécuritaire efficace au sein d’une organisation n’est pas à prendre à…

vues 624 lectures commentaire 0 commentaire(s) recommandation notez cet article
2

Réagissez à cet article

Votre Pseudo

Commentaire

Les économies de stockage à travers une architecture unifiée


Beaucoup d’organisations ont fait le choix du stockage « unifié » à travers les systèmes Multiprotocol storage systems (MPS). Avec la croissance exponentielle du nombre de d…

Virtualisation : bénéfices, défis et solutions


Alors qu’il existe différentes voies en matière de virtualisation ce document se concentre sur 3 approches : serveurs, postes de travail et appliances. L’un des motifs de cet…
livres blancs avec LesSourcesIT.fr
publicité
Les dossiers du MagIT
Les dernières offres d'emploi

 CHEF DE PROJETS APPLICATIFS JAVA/JEE H/F (H/F)

Vous assurez l'analyse des besoins, et les spécifications fonctionnelles et techniques des applications. Vous répartissez et coordonnées les développements, tests et intégration des développeurs...

 CONSULTANT NTIC (H/F)

Vous êtes intégré dans une agence et vous accompagnez des clients grands comptes sur des projets d'évolution de systeme d'information. Vous contribuez aux différentes phases du projet de l'analyse du...

 TECHNICIEN SUPERVISION RESEAU (H/F)

Au sein du service Supervision, vous êtes en charge du suivi de la mise à jour du matériel d?équipements réseau (volumétrie : 700 équipements dslam, soit une vingtaine par jour). Pour cela, vous...

publicité
Recevez les newsletters du MagIT
L'essentiel IT : L'actu IT au quotidien
événements

TechDays 2012 : développeurs et projets en avant

1 2 3 4 5   
Les blogs de la rédaction
Christophe Bardy

Virtual Bytes

Is HP Public Cloud using GlusterFS as its technology for block storage ?

According to information obtained by LeMagIT, HP will unveil a block storage…

Valery Marchive

Casualtek

Free : et si la rentabilité naissait de la simplicité ?

Free Mobile a semé le chaos sur le marché français de la téléphonie mobile…

Click Here