Au nom de l’IA, Cloudera affûte sa stratégie hybride

Face à Snowflake et Dabricks, Cloudera tente de maintenir une parité fonctionnelle en s’appuyant sur des projets open source et des partenaires, dont Nvidia et Red Hat. Sa carte maîtresse ? L’hybridité de son offre.

75 % de croissance au premier trimestre en France et une croissance jugée « stable » depuis trois ans. Voilà les résultats affichés par Sophie Papillon, directrice de Cloudera en France et vice-présidente des territoires français et nord-africains. « Nous voyons que les choses bougent beaucoup, notamment avec l’acquisition de nouveaux logos », déclare-t-elle. « En France, nous travaillons jusqu’alors avec une base installée qui reste très importante, mais de nouveaux clients nous consultent pour des sujets différents ».

« Il y a aussi beaucoup d’incertitudes géopolitiques, donc les entreprises se posent la question de l’hybridité », ajoute-t-elle.

Cloud hybride, déploiements « air-gapped » : les cartes de Cloudera pour se distinguer de Snowflake et Databricks

L’éditeur n’a pas changé de credo : en sus du cloud public, avec Cloudera Data Platform, il entend croître là où Snowflake et Databricks vont très peu. Dans les environnements hybrides, sur site, dans les clouds souverains. Cloudera mènerait des discussions avec des clients d’OVH, de Scaleway, de NumSpot, d’Orange Business, ou des prospects intéressés par Bleu et S3NS pour héberger une version self-managed de sa plateforme de gestion de données sur ces offres cloud. « Nous n’avons jamais eu autant de demandes », lâche Sophie Papillon.

« Étonnamment, les opérateurs télécoms sont plus attentifs à ce genre de mouvement que les banques », constate Denis Fraval-Olivier, directeur senior des ingénieurs avant-ventes EMEA Sud chez Cloudera.

Cloudera est un fournisseur américain. Il demeure soumis au CLOUD Act et au FISA Act (entre autres), mais il fait partie des quelques acteurs à fournir des solutions de gestion de données sur site. Ce qui peut être une contrainte pour certains anciens clients.

Selon Denis Fraval-Olivier, la part de clients ayant des environnements Cloudera basée purement sur Hadoop diminuerait. HDFS serait petit à petit remplacé par Ozone (un système de stockage distribué orienté objet, compatible S3). De plus en plus de clients sont intéressés par sa prise en charge d’Apache Iceberg, indique de son côté Sophie Papillon. Rappelons que Cloudera est l’un des premiers acteurs à avoir proposé en disponibilité générale le format de tables ouvert sur sa plateforme Public Cloud avant de le prendre en charge dans son édition Private Cloud.

L’éditeur le sait, l’interopérabilité promise par Iceberg est fonction du catalogue de métadonnées associées. Pour l’instant, Cloudera a fait le choix de prendre en charge et de contribuer à l’API REST Catalog associé au metastore Apache Hive. Une approche compatible avec sa politique de réversibilité open source et logique : l’éditeur prend en charge Hive de longue date. « Si Iceberg est un standard en matière de format de tables, il n’y a pas concernant les catalogues », observe Denis Fraval-Olivier. « Il y a plusieurs projets aujourd’hui : Polaris porté par Snowflake, Unity par Databricks et d’autres. Nous, nous nous attachons au développement de REST Data Catalog. Il est encore toutefois trop tôt pour savoir quel projet s’imposera », estime le responsable.

Résidentialité des données, interopérabilité, des sujets qui parlent forcément aux clients historiques de Cloudera, dont les services financiers, les opérateurs télécoms, l’industrie lourde ou le secteur public.

Cloudera, le transporteur Big Data

En Europe, au Moyen-Orient et en Afrique du Nord, Cloudera est actuellement sollicité pour migrer des données et des pipelines de données vers sa plateforme et d’autres. « Certains clients ont trouvé un intérêt d’extraire des données de système legacy parce que le coût d’exploitation est bien inférieur sur une solution plus moderne », assure Denis Fraval-Olivier.

« De manière générale, en Europe centrale et en France, il y a une volonté de la part des clients et des prospects de maîtriser leurs coûts ».

Ces systèmes legacy, ce sont des appliances Teradata, des IBM DataStage et d’autres, utilisés historiquement pour gérer des pipelines ETL SQL et des jobs Apache Spark.

L’éditeur entend automatiser ce processus. Il vante pour cela les fonctionnalités en provenance d’Octopai, une société israélienne qu’il a rachetée en novembre dernier. La suite de data lineage et de découverte de données doit automatiser l’analyse des métadonnées d’une cinquantaine de systèmes sources. Suivi des données, identification des pipelines, puis conversion du DSL SQL à un code Spark… Cloudera entend mêler gestion de métadonnées, machine learning et LLM. Pour l’instant, ce dernier volet semble encore en construction.

Cloudera est également utilisé comme un tunnel d’ingestion entre des applications et des data warehouse par des ingénieurs de données. Pour cela, l’éditeur propose Cloudera Streaming, basée sur Apache Kakfa et Flink, ainsi que Cloudera DataFlow, sur Apache NiFi 2.0.

« Nous avons des clients qui utilisent cette stack de mobilité de données, et Cloudera n’est ni la source ni la destination », assure le directeur des ingénieurs avant-ventes. « Généralement, il s’agit d’alimenter des algorithmes d’intelligence artificielle ou d’effectuer des analyses en temps réel à partir de systèmes sources on-premise ».

Pour rappel, Confluent a également couplé Kafka et Flink, tandis que Snowflake construit actuellement sa solution Openflow sur Apache NiFi fondé par des anciens de Cloudera.

« Nous sommes toujours satisfaits quand des choix technologiques que nous avons portés au niveau communautaire ont une bonne adhésion auprès des nos clients, mais aussi de nos coopétiteurs », affirme Denis Fraval-Olivier.

En préversion technique, cette fois-ci en s’appuyant sur Debezium, DataFlow peut réaliser des opérations de change data capture, ehntre des tables issues de SGBDR DB2, MySQL, Oracle, PostgreSQL, SQL Server et des tables Iceberg.

De la même manière, Cloudera peut être utilisé pour fédérer des données à travers les systèmes legacy. « Nous prenons en charge Trino, qui permet d’interroger les données là où elles sont. Nous n’imposons pas à nos clients de migrer l’ensemble de leur patrimoine informationnel vers Cloudera ».

Trino n’est pas voué à remplacer Impala, le moteur SQL pensé originellement pour interroger des données structurées dans HDFS (et accessoirement accélérer les requêtes BI). « Trino a cette capacité à fédérer des informations depuis des sources de données SQL, mais il ne sert pas les besoins interactifs des usagers de solutions BI comme Tableau, Power BI ou MicroStrategy, comme Impala ».

Précisons que Trino n’est pris en charge qu’en préversion technique à travers Cloudera Data Warehouse (CDW), tout comme Phoenix et Solr.

IA : Cloudera roule avec Nvidia

L’éléphant dans la pièce n’est plus Hadoop, mais l’IA générative et agentique. « Nous avons beaucoup de demandes concernant l’IA », assure Denis Fraval-Olivier.

Comme Teradata récemment, Cloudera s’est rapprochée de Nvidia depuis mars de l’année dernière pour proposer une interconnexion entre la pile Cloudera et les services d’inférence NIM. Plus largement sur les outils de la suite Nvidia AI Enterprise.

« Nos clients ont réalisé des investissements massifs pour s’équiper en GPU et veulent mutualiser le déploiement des applications d’IA pour maximiser l’exploitation de ce matériel dédié », assure le directeur des ingénieurs avant-vente EMEA Sud.

L’éditeur a donc ajouté des AI Studio (des workbenchs) dans l’offre Cloudera AI (ex-Cloudera Machine Learning).

En préversion technique, Cloudera propose quatre « studios » low-code/no-code consacrés au mécanisme RAG, au Fine-tuning, à la génération de données synthétiques et à la conception d’agents IA.

Ces bancs d’essai sont issus du rachat de Verta et de sa plateforme Operational AI, en juin 2024.

Ces workbenchs tendent à abstraire les détails techniques. Par exemple, Cloudera ne propose pas de bases de données vectorielles, mais s’intègre avec des solutions tierces dont Pinecone, Milvus, ChromaDB, OpenSearch, et Qdrant.

L’éditeur a établi un partenariat avec Pinecone, mais le template AMP (Applied Machine Learning Prototypes) associé à RAG Studio évoque le stockage des documents sur Amazon S3 et le déploiement de Qdrant.

À travers, Agent Studio l’éditeur suggère de développer des agents IA consacrés au DevOps, à l’automatisation d’analyse de documents et de génération de rapports, ainsi que le traitement de cas KYC (Know Your Customers). Pour cela, Cloudera s’appuie principalement sur le framework CrewAI – afin de bâtir les flux de travail. Il fournit des intégrations avec des outils tels que Jira, Slack, Serper (une API pour Google Search), Cloudera Data Visualization, ou encore avec les tables Hive dans CDW. Il est possible de créer ses propres outils, tandis que les clients et les serveurs MCP (Model Context Protocol) sont déjà pris en charge.

Cloudera défend son modèle hybride, mais les AI Studio s’intègrent en premier lieu avec Azure OpenAI et AWS Bedrock. Sur site, il faut s’appuyer sur Cloudera AI Inference Service, une combinaison des microservices NIM, du serveur d’inférence Nvidia Triton, de Kserve et du framework vLLM, désormais porté par Red Hat. En revanche, l’éditeur donne l’accès à plusieurs catalogues de LLM, dont celui de Hugging Face et de Nvidia (Mistral AI, Cohere, LLama de Meta, etc.).

Un partenariat avec Red Hat a été annoncé afin d’héberger Cloudera Data Warehouse, Data Engineering et Cloudera AI sur OpenShift, sur site et dans le cloud. De ce que comprend LeMagIT, pour l’instant, les studios servent majoritairement à réaliser des démonstrateurs lors des rendez-vous client. En tout cas, les porte-parole de Cloudera n’ont pas évoqué de déploiement en production. Sur le papier, Cloudera n’accuse pas un grand retard face à ses concurrents. Reste à savoir si les clients le suivront.

Concernant la tarification des services d’IA, Cloudera n’adhère pas au modèle tarifaire des fournisseurs de LLM. « Nous pensons que la facturation au token est un frein à l’utilisation », justifie Denis Fraval-Olivier.

Dans le cloud (Azure et AWS), Cloudera a décidé de facturer l’usage au nombre de ressources consommées à l’heure. Ici, l’éditeur a basé ses crédits à l’heure (Cloudera Compute Unit) sur le tarif des instances listées par les fournisseurs cloud. Sur site, l’accès au service d’IA requiert de payer des licences supplémentaires. Un schéma qui n’est pas forcément plus transparent que la consommation de tokens et qui réclame d’optimiser les charges de travail GPU. C’est un défi, même pour les fournisseurs de LLM.

En octobre 2024, Gartner louait la participation de Cloudera à 35 projets open source de la fondation Apache, ses capacités hybrides et la flexibilité des licences cloud/on-premise. Pour autant, les analystes notaient une plus grande complexité par rapport aux solutions concurrentes. Cela serait dû à la flexibilité des déploiements et la nature hybride de la plateforme. Enfin, d’après les clients interrogés, l’éditeur a relevé ses tarifs l’année dernière.

Pour approfondir sur Big Data et Data lake