arthead - stock.adobe.com

De StreamSets à watsonx data integration : IBM consolide sa position sur un marché mouvant

Un peu moins de deux ans après l’acquisition de StreamSets, la solution devient la caution « ingestion de données en temps réel » de la solution unifiée watsonx data integration. Un moyen pour IBM d’assurer sa position sur un marché chahuté par de nouveaux acteurs.

StreamSets n’a pas disparu sous le giron IBM.

Pour mémoire, Big Blue avait annoncé sa volonté d’acquérir le spécialiste de l’orchestration de flux de données en décembre 2023. Petite particularité, ce rachat avait été opéré en même temps que WebMethods auprès de Software AG, propriétaire de Streamsets depuis février 2022. L’éditeur allemand souhaitait constituer une « super iPaaS ». Comme prévu, IBM a confirmé la finalisation de l'acquisition en juillet 2024.

Généralement, IBM continue de commercialiser les plateformes de manière individuelle et les intègre dans des solutions packagées. C’est officiellement en cours depuis juin 2025 pour StreamSets avec l’annonce de watsonx data integration.

Watsonx data integration : StreamSets rejoint DataStage et DataBand dans une solution unifiée

« C’est un ensemble d’outils qui ont été fédérés au sein d’une seule et même console d’administration pour travailler sur tous les modes d’intégration de données », déclare Thibault de Baecker, vice-président des ventes et des opérations EMEA liées à StreamSets chez IBM.

Watsonx data integration couvre les cas d’usage ETL/ELT en lots, l’ingestion en temps réel (streaming), la réplication de données, les flux de données non structurées (pour les mécanismes RAG, en partenariat avec Unstructured) et l’observabilité de données.

StreamSets cohabite donc avec IBM DataStage (ex Infosphere) et DataBand (outil d’observabilité de données).

Ces différents flux peuvent être conçus en mode no-code à partir d’une interface conversationnelle, en low-code avec une interface utilisateur WYSIWYG et « procode », à l’aide d’un SDK Python.

« L’objectif étant d’éviter de réécrire les pipelines en permanence », poursuit Thibault de Baecker. « Par exemple, j’ai conçu un flux ETL, j’ai besoin de le modifier en flux ELT ou TETLT, c’est-à-dire d’ajouter des transformations à la volée, il suffit de choisir la compilation en mode “pushdown to source” (TELT) ou “pushdown to target” (ELT) ».

Outre l’orchestration des traitements en parallèle, data integration infuse des fonctions de mise en qualité de données, par exemple pour s’assurer la validité d’adresse.

Le rôle de StreamSets dans tout cela ? Il sert ici à gérer le streaming de données. Il s’agit principalement d’opérer des ingestions de données depuis des topics Apache Kafka source, d’effectuer des transformations à la volée (par exemple, masquer, mapper ou combiner des champs) à l’aide d’Apache Spark, et de la détection de dérive des schémas. En effet, une fonction phare de StreamSets est son mode « Schema on Read ». En clair, la structure n’est définie et appliquée qu’au moment de la lecture ou de l’interrogation des données, plutôt qu’au moment du stockage.

Rester pertinent sur un marché hautement concurrentiel

 La peinture qui recouvre la façade watsonx data integration est fraîche. « Nous aurons une version beaucoup plus finalisée qui arrivera mi-décembre. Elle disposera 35 % des capacités globales et plus de 50 % des fonctions de DataStage et de StreamSets », promet Thibault de Baecker. « Notre vision, c’est de fournir un produit en disponibilité générale au cours du 1er semestre 2026. Pour tous les clients qui nous ont rejoints ces six derniers mois, le chemin de migration sera très simple ».

StreamSets pourra toujours être acheté séparément. Pour autant, le modèle économique de watsonx data integration, orienté à la demande avec un modèle de consommation de crédits, serait plus accessible que le modèle d’acquisition de StreamSets, à la licence, dixit le vice-président des ventes EMEA.

Depuis l’acquisition, l’outil a convaincu des entreprises souhaitant migrer vers le cloud ou bouger de large volume de données comme des logs liés à la cybersécurité.

Gartner considère IBM comme un leader de longue date sur le segment de l’intégration de données. Or, ce marché connaît des mouvements importants.

Qlik a lancé le bal en acquérant Attunity en 2019, puis Talend en 2023. Salesforce a dévoilé le rachat d’Informatica en août 2025. Fivetran, plus récent sur la place, a renforcé son offre en multipliant les acquisitions (dont HVR en 2021 et Census en 2025) pour finalement annoncer sa « fusion » avec dbt Labs.

Ce n’est pas tout. Snowflake et Databricks sont également en train de constituer des solutions d’intégration de données infusées au sein de leur plateforme respective.

« Ces mouvements sont très intéressants et souvent logiques », affirme l’ancien directeur des ventes de Talend, un temps directeur de l’Europe du Sud chez Databricks. « C’est aussi un très bon défi pour nous [chez IBM] », ajoute Thibault de Baecker.

IBM conserve la carte « on-prem »

IBM veut jouer sur plusieurs plans. D’abord, Data Integration est pensé comme un complément des différentes solutions watsonx, dont le lakehouse watsonx data, la suite d’outils governance ainsi que les plateformes d’IA wastonx ai et orchestrate (développement d’assistants IA). Le fournisseur peut ainsi proposer une plateforme de données qui concurrence ou complémente Databricks et Snowflake.

Mais Big Blue a un autre atout de sa manche. Tout comme StreamSets, watsonx data integration peut être déployé dans le cloud (IBM Cloud, AWS, GCP, Azure), en mode hybride et sur site.

« Le control plane est généralement hébergé dans le cloud, mais je peux aussi avoir le control plane et le data plane sur site », indique Thibault de Baecker. « C’est quelque chose que l’on ne voit plus souvent aujourd’hui ».

De fait, Informatica, Qlik-Talend et Fivetran ne commercialisent pas ou plus de solutions purement on-premise. Qlik et Informatica maintiennent principalement des solutions existantes.

En novembre 2024, dans son Magic Quadrant dédié à l’intégration de données, Gartner jugeait qu’IBM perdait de la vitesse par rapport à ses concurrents. En cause, le coût et la complexité des solutions, malgré une forte présence chez les grands comptes.

« Je ne peux pas vous en dévoiler les détails, mais 2025 se profile comme une très belle année », considère pour sa part le responsable des ventes EMEA de StreamSets.

 « Je vois beaucoup de clients dans les pays de ma région qui implémentent de nouveaux projets, qui testent les solutions. En France, les entreprises sont un peu plus frileuses », nuance-t-il.

Pour approfondir sur Middleware et intégration de données