Big Data, cloud hybride, IA : Cloudera croit en son retour en grâce

Un temps ébréché par la perte de vitesse de l’écosystème Hadoop, Cloudera entend prouver qu’il est au niveau de ses voisins bruyants que sont Databricks et Snowflake. Pour cela, il rejoue (espère-t-il, de manière stratégique) ses cartes du cloud hybride, de l’open source et de l’élasticité.

Dans le milieu du Big Data et du datawarehousing, les acteurs dits « cloud native » brillent. Ces éditeurs, somme toute jeunes, ont su convaincre les entreprises. Snowflake revendique plus de 8 500 clients quand son concurrent Databricks évoque plus de 10 000 clients.

Les acteurs traditionnels n’ont cependant pas dit leurs derniers mots. À l’instar des trois gros fournisseurs cloud, Oracle et Teradata tentent de se mettre à niveau de Snowflake et de Databricks, et de s’en distinguer. Tout comme Cloudera. En 2022, l’éditeur a présenté et lancé CDP One, sa vision d’un « open data lakehouse ».

La société qui a fusionné avec Hortonworks en 2019, dont les racines s’entrelacent avec celles de l’écosystème Hadoop, a été acquise en 2021 par deux fonds d’investissement, KKR & Co. et Clayton Dubilier & Rice LLC pour 5,3 milliards de dollars.

« La sortie de la cotation a été une décision très stratégique pour nous », considère Frank O’Dowd, Chief Revenue Officer chez Cloudera depuis 22 mois, auprès du MagIT. « Cela nous permet de nous positionner davantage dans la recherche et le développement et dans d’autres domaines, comme les ventes, sans avoir à nous préoccuper de la pression du marché public ».

Frank O'Dowd, Chief Revenue Officer, ClouderaFrank O'Dowd, Chief Revenue Officer,
Cloudera

« Nous nous concentrons sur l’obtention de meilleurs contrats pour nos clients et pour Cloudera. La sortie de cotation a donc été très bénéfique et nos résultats le reflètent », poursuit-il. « Nous sommes à mi-chemin de ce qui devrait être la meilleure année dans l’histoire de Cloudera ».

« Nous sommes à mi-chemin de ce qui devrait être la meilleure année dans l’histoire de Cloudera ».
Frank O'DowdChief Revenue Officer, Cloudera

Le CRO évoque « une croissance à deux chiffres » en général, et « à trois chiffres dans le cloud ». Rien que cela. Il faut croire le responsable sur parole : l’entreprise ne transmet plus sur ses résultats financiers depuis qu’elle est passée aux mains des deux fonds d’investissement.

« Nous avons beaucoup de succès dans la plupart des secteurs », assure-t-il.

Quatre d’entre eux se distinguent toutefois. « Cette année, nous avons eu beaucoup de succès auprès des services financiers, des opérateurs télécoms, auprès des fabricants automobiles et des manufacturiers », liste Frank O’Dowd.

Une croissance portée par le cloud hybride… et l’inflation

Les raisons de cette remontada ? Elles sont multiples, mais il ne faut pas oublier l’influence conjoncturelle, considère le CRO.

« L’inflation que nous observons à l’échelle mondiale est regrettable, mais cela joue en notre faveur », avance-t-il.

« Souvent, lorsque les entreprises sont confrontées à l’inflation, elles cherchent à consolider leurs fournisseurs. Nous sommes en mesure de leur offrir une plateforme de traitement de données exhaustive, capable de remplacer certains composants existants ».

Selon le responsable des finances, Cloudera attire de nouveaux clients avec son offre cloud. Ses clients existants sont également en train de migrer vers ses solutions en cloud public.

Ce n’est pourtant pas l’atout principal de l’éditeur, selon Frank O’Dowd.

« De toute évidence, l’une de nos plus grandes forces est que nous sommes hybrides », affirme-t-il. « Nos clients sont en mesure de déployer notre plateforme sur les trois grands clouds publics ainsi que sur leurs centres de données, infogérés ou sur site. Nous offrons une solution qui leur permet de tirer parti de tous ces environnements ».

Ce serait d’autant plus important dans la région EMEA, selon une étude publiée en juin et menée par Coleman Parkes Research pour le compte de Cloudera entre mars et avril 2023 auprès de 850 responsables IT de la zone.

Ceux-ci sont 68 % à déclarer que leur organisation utilise des environnements hybrides, combinant cloud privé et cloud public. Cette portion tombe à 60 % en France, selon les réponses des 200 dirigeants français interrogés.

Parmi les entreprises qui exploitent le cloud public, 72 % d’entre elles feraient appel aux services de deux hyperscalers ou plus. Presque la totalité des responsables IT (92 %) sondés prévoit que leur entreprise va davantage migrer de données vers le cloud au cours des trois prochaines années. Un peu plus des trois quarts (76 %) des dirigeants français font la même estimation.

L’amélioration de l’accès aux données (48 %), l’optimisation du stockage et des backups (44 %), la réduction des coûts (38 %) ainsi que l’innovation (37 %) sont les principaux critères qui justifient ces migrations vers le cloud public.

Dans un même temps, 76 % des sondés prévoient que leur entreprise rapatriera des données sur site sur la même période.

Problèmes de gouvernance et de conformité (55 %), risque de captivité auprès des fournisseurs (54 %), enjeux de cybersécurité (52 %), performances peu satisfaisantes au moment de traiter les données en temps réel (50 %), complexité d’intégration (48 %), coût trop important (31 %)… Les raisons de ce retour sur site sont multiples.

« Nous constatons un regain d’intérêt pour nos solutions de cloud privé/on premise ».
Frank O'DowdChief Revenue Officer, Cloudera

« Nous constatons un regain d’intérêt pour nos solutions de cloud privé/on premise », confirme Frank O’Dowd. « Certains clients exercent dans des secteurs hautement régulés. D’autres tentent de mieux gérer les coûts ».

La prise en charge d’Apache Iceberg, une nécessité

Sans surprise, Cloudera se positionne sur l’ensemble de ces tendances. Dans ce cadre, l’éditeur renforce sa prise en charge du format de table open source Apache Iceberg. Son interopérabilité, ses performances, sa prise en charge de différents formats de fichiers (Parquet, AVRO, ORC), la possibilité de sauvegarder, puis de rejouer des changements de données, de conserver une traçabilité, ainsi que l’écosystème qui l’entoure, en font l’un des formats les plus appréciés des fournisseurs et de leurs clients.

Depuis la fin du mois de juin, le support d’Iceberg est en disponibilité générale dans l’édition Public Cloud de Cloud Data Platform (CDP) et en prévision technique pour l’édition Private Cloud. Dans l’édition Public Cloud, les moteurs Impala, Hive, Spark prennent en charge les opérations CRUD. Apache NiFi ne tolère que les opérations d’écriture et de lecture. Cloudera ne prend pas encore en charge le format pour Apache Flink.

Les tables Iceberg peuvent être stockées sur HDFS, le système de fichier distribué au cœur d’Hadoop, et Apache Ozone, un système de stockage objet compatible S3.

« Il y a beaucoup d’intérêt pour les innovations que nous avons apportées autour d’Ozone et de l’observabilité, mais en particulier autour d’Iceberg, je pense que nous sommes en avance sur cette courbe », affirme Frank O’Dowd.

Néanmoins, Cloudera est loin d’être le seul à prendre en charge ce format. Dremio, Starburst, Snowflake, ClikHouse, Google Cloud (avec BigLake), AWS (avec Amazon Athena, EMR, Glue), et même Salesforce (avec son Data Cloud) le font déjà ou se sont invités sur cette voie.

L’occasion de rappeler « les racines open source » de l’entreprise.

« Nous ne nous engageons pas simplement sur une technologie propriétaire à Cloudera. C’est un autre différenciateur », considère le Chief Revenue Officer.

Les séquelles de la fusion Hortonworks - Cloudera de moins en moins perceptibles

Frank O’Dowd rappelle également la maturité de l’éditeur en matière de gestion de volumétrie de données. « L’un de nos concurrents a récemment évoqué qu’il gérait plus de 250 pétaoctets de données. Certains de nos clients administrent plus de données que cela. Nous pilotons bien plus de 25 exaoctets de données, autant que les hyperscalers eux-mêmes », s’exclame-t-il.

Pour autant, la fusion de Cloudera et d’HortonWorks au même moment du rachat MapR par HPE a laissé des séquelles. Les choix commerciaux et techniques au regard de l’intégration d’HortonWorks ont décidé certains clients qui avaient adopté HDP à chercher une alternative.

C’est particulièrement le cas en France où l’association TOSIT a dévoilé l’année dernière le projet Trunk Data Platform (TDP), une déclinaison de composants de l’écosystème Hadoop permettant de migrer depuis d’anciennes versions de HDP sans perdre en qualité. Trois organisations, dont EDF et la DGFIP (Direction générale des finances publiques), ont passé le pas de la mise en production en 2023. D’autres sociétés, également clientes de Cloudera, envisagent d’utiliser cette solution pour éviter les surcoûts de licence liés aux backups.

« La beauté de l’industrie IT, c’est que vous êtes à la fois partenaires et concurrents de tout le monde », rétorque Frank O’Dowd. « Le secteur lui-même est suffisamment vaste pour que les entreprises puissent s’appuyer sur n’importe quelle solution. Je ne pense donc pas que cela nous exclut de quoi que ce soit ».

L’IA, un sujet majeur pour Cloudera et ses clients

Cloudera ne se sent pas non plus exclu de la course à l’IA, bien au contraire.

Récemment, il a présenté un prototype de solution d’IA générative nommé LLM Chatbot. Pour l’instant, il s’agit d’un projet pour prouver qu’il est possible de déployer de grands modèles de langage et des outils open source, de mettre en place des bases de connaissances accessibles pour ces modèles sur la plateforme CDP.

« L’intelligence artificielle est un sujet clé. Nous pensons être particulièrement bien placés pour proposer une solution qui garantit la fiabilité des données pour nos clients », lance Frank O’Dowd. « Notre approche hybride leur permet d’entraîner des modèles sur le cloud public et de les exécuter sur site ».

Cela s’appliquerait autant au monde de l’analytique prédictive que de l’IA générative.

« À l’heure actuelle, le niveau d’intérêt est extrêmement élevé de la part des clients. De même, un certain nombre de partenaires cherchent à offrir des solutions avec nous ». Cela passe, entre autres par des collaborations avec Nvidia, Intel et AMD pour optimiser les charges de travail. Cloudera compte également sur son partenariat étendu avec AWS.

« Nous redéfinissons l’entreprise, nous prenons de nouvelles directions et c’est une période passionnante », conclut le Chief Revenue Officer. « La croissance est évidemment très appréciée chez Cloudera, et nous sommes très enthousiastes quant à ce que nous pensons qu’elle va engendrer. L’avenir du Big Data semble nous être favorable actuellement ».

« L’avenir du Big Data semble nous être favorable actuellement ».
Frank O'DowdChief Revenue Officer, Cloudera

Toutes les options sont désormais sur la table selon Frank O’Dowd qui évoque une plausible introduction en bourse.

« Nos propriétaires, CDR et KKR, ont été des soutiens importants. Ils ont largement investi dans Cloudera. Quelle pourrait être la prochaine étape ? Il pourrait s’agir d’une IPO, mais c’est à eux de décider », signale-t-il. « Nous devons poursuivre notre croissance et le chemin que nous avons parcouru jusqu’à présent. Nous pourrons alors prendre les décisions qui nous conviennent ».

Pour approfondir sur Big Data et Data lake

Close