Avec Hortonworks, Yahoo devient fournisseur de solutions pour le Big Data

Yahoo vient d'officialiser la création de Hortonworks, une entreprise indépendante, créée par le portail et le fonds d'investissement Benchmark Capital, qui basera ses activités sur le développement et la vente de support et de formation autour de Hadoop.

C'est désormais officiel : après plusieurs semaines de rumeurs, Yahoo annonce la création de Hortonworks, une entreprise indépendante entièrement dédiée au développement et au support de Hadoop, le framework Java Open Source de la fondation Apache, qui permet de gérer d'importants volumes de données en environnement distribué. Marquant l'arrivée du portail Web, aujourd'hui à la recherche de nouveaux leviers de croissance, sur le segment très en vogue du Big Data.

Hortonworks sera désormais le nouveau havre de paix des ingénieurs Hadoop employés chez Yahoo, qui travaillaient à ajuster le framework aux exigences de l'importante infrastructure interne du groupe. Principal contributeur au projet (on parle de 70% du code produit), le groupe avait pendant un temps développé sa propre déclinaison d’Hadoop (The Yahoo Distribution of Hadoop), qui compilait une série d’ajustements maison, de mises à jour et de patches au dessus de la distribution d’Apache. Mais, afin d’éviter une fragmentation inutile, Yahoo a toutefois décidé de suspendre ses travaux en mars dernier, confiant à la fondation Apache le premier rôle dans la gestion du projet. La création de cette entreprise était probablement plus qu'une ébauche à l'époque.

La société affirme que sa priorité est de contribuer au core d' Hadoop auprès de la fondation Apache afin de s'assurer de sa stabilité, de sa qualité et de sa facilité d'installation et de déploiement, tout en l'améliorant en termes de disponibilité, de performances et de sécurité, comme l'explique le site d'Hortonworks. La société entend par ailleurs reverser l'intégralité de son code à la fondation.

Dans un second temps, Hortonworks basera son modèle économique sur la vente de support sous formen d'abonnement, de formation et de certification. Les détails quant au pricing ne sont actuellement pas finalisés.

Surtout, l'un des points clés de cette initiative est la présence du Benchmark Capital, un fonds d'investissements très impliqué dans l'Open Source (notamment dans JBoss, Red Hat et SpringSource). Sa présence, tant dans l'actionnariat de la société qu'à un poste clé, souligne l'importance d'Hadoop et la valeur du Big Data aux yeux du marché. Rob Bearden, responsable au Benchmark, assurera les fonctions de président et COO de la société. Eric Baldeschwieler, vice président Hadoop Software Engineering chez Yahoo, prend les fonctions de Pdg.

Un signe de reconnaissance pour Hadoop

Reste à connaître le poids de cette initiative sur le marché du Big Data et dans l'éco-système d'Hadoop. Car depuis plusieurs le framework voit grandir son cercle d'afficionados, à l'image de Cloudera ou encore Greenplum, une société spécialisée dans le datawarehouse, rachetée par EMC en juillet 2010. Déjà installée sur le segment du Big Data, la division base de données et business Intelligence du spécialiste a annoncé lors d'EMC World 2100 le lancement prochain de GreenPlum HD sa propre distribution Hadoop pour le 3e trimestre 2011.

De son côté, Elie Simon, responsable de la division Data Computing Division (DCD) EMEA chez EMC (et vice président de Greenplum), voit plutôt l'arrivée de Yahoo comme une confirmation de l'importance du Big Data. "Une preuve que le Big Data est bien là, souligne-t-il. Tous les signes d'investissements sur ce secteur sont bons et représentent une reconnaissance d'Hadoop. Les investissements se concentrent sur les données non structurées qui constituent une évolution dans la sphère de la gestion des données." La décision de Yahoo de s'ancrer sur ce marché conforte également Greenplum dans ses convictions, note-t-il en substance. Le groupe développe actuellement une offre qu'il appelle "Data Stack", une appliance qui combine les technologies de base de données du groupe pour les données structurées, Hadoop pour les données non structurées, à des outils analytiques ainsi qu'à une couche de virtualisation reposant sur des technologies VMware. Le tout intégré dans un hardware. "Une offre d'architecture complète pour la gestion des données", précise-t-il, indiquant que Hortonworks base davantage son offre sur un point unique, Hadoop.

Il ne faut donc pas y voir de concurrence, comme cela pourrait le cas avec Cloudera. Mais plutôt un bienfait pour la communauté du framework Java dont il reste encore "certains points à améliorer comme la connectivité et la sécurité". Toute contribution est bonne à prendre donc.


Pour approfondir sur Open Source

Close