StreamSets n’a pas disparu sous le giron IBM.

Pour mémoire, Big Blue avait annoncé sa volonté d’acquérir le spécialiste de l’orchestration de flux de données en décembre 2023. Petite particularité, ce rachat avait été opéré en même temps que WebMethods auprès de Software AG, propriétaire de Streamsets depuis février 2022. L’éditeur allemand souhaitait constituer une « super iPaaS ». Comme prévu, IBM a confirmé la finalisation de l'acquisition en juillet 2024.

Généralement, IBM continue de commercialiser les plateformes de manière individuelle et les intègre dans des solutions packagées. C’est officiellement en cours depuis juin 2025 pour StreamSets avec l’annonce de watsonx data integration.

Watsonx data integration : StreamSets rejoint DataStage et DataBand dans une solution unifiée « C’est un ensemble d’outils qui ont été fédérés au sein d’une seule et même console d’administration pour travailler sur tous les modes d’intégration de données », déclare Thibault de Baecker, vice-président des ventes et des opérations EMEA liées à StreamSets chez IBM. Watsonx data integration couvre les cas d’usage ETL/ELT en lots, l’ingestion en temps réel (streaming), la réplication de données, les flux de données non structurées (pour les mécanismes RAG, en partenariat avec Unstructured) et l’observabilité de données. StreamSets cohabite donc avec IBM DataStage (ex Infosphere) et DataBand (outil d’observabilité de données). Ces différents flux peuvent être conçus en mode no-code à partir d’une interface conversationnelle, en low-code avec une interface utilisateur WYSIWYG et « procode », à l’aide d’un SDK Python. « L’objectif étant d’éviter de réécrire les pipelines en permanence », poursuit Thibault de Baecker. « Par exemple, j’ai conçu un flux ETL, j’ai besoin de le modifier en flux ELT ou TETLT, c’est-à-dire d’ajouter des transformations à la volée, il suffit de choisir la compilation en mode “pushdown to source” (TELT) ou “pushdown to target” (ELT) ». Outre l’orchestration des traitements en parallèle, data integration infuse des fonctions de mise en qualité de données, par exemple pour s’assurer la validité d’adresse. Le rôle de StreamSets dans tout cela ? Il sert ici à gérer le streaming de données. Il s’agit principalement d’opérer des ingestions de données depuis des topics Apache Kafka source, d’effectuer des transformations à la volée (par exemple, masquer, mapper ou combiner des champs) à l’aide d’Apache Spark, et de la détection de dérive des schémas. En effet, une fonction phare de StreamSets est son mode « Schema on Read ». En clair, la structure n’est définie et appliquée qu’au moment de la lecture ou de l’interrogation des données, plutôt qu’au moment du stockage.

Rester pertinent sur un marché hautement concurrentiel La peinture qui recouvre la façade watsonx data integration est fraîche. « Nous aurons une version beaucoup plus finalisée qui arrivera mi-décembre. Elle disposera 35 % des capacités globales et plus de 50 % des fonctions de DataStage et de StreamSets », promet Thibault de Baecker. « Notre vision, c’est de fournir un produit en disponibilité générale au cours du 1er semestre 2026. Pour tous les clients qui nous ont rejoints ces six derniers mois, le chemin de migration sera très simple ». StreamSets pourra toujours être acheté séparément. Pour autant, le modèle économique de watsonx data integration, orienté à la demande avec un modèle de consommation de crédits, serait plus accessible que le modèle d’acquisition de StreamSets, à la licence, dixit le vice-président des ventes EMEA. Depuis l’acquisition, l’outil a convaincu des entreprises souhaitant migrer vers le cloud ou bouger de large volume de données comme des logs liés à la cybersécurité. Gartner considère IBM comme un leader de longue date sur le segment de l’intégration de données. Or, ce marché connaît des mouvements importants. Qlik a lancé le bal en acquérant Attunity en 2019, puis Talend en 2023. Salesforce a dévoilé le rachat d’Informatica en août 2025. Fivetran, plus récent sur la place, a renforcé son offre en multipliant les acquisitions (dont HVR en 2021 et Census en 2025) pour finalement annoncer sa « fusion » avec dbt Labs. Ce n’est pas tout. Snowflake et Databricks sont également en train de constituer des solutions d’intégration de données infusées au sein de leur plateforme respective. « Ces mouvements sont très intéressants et souvent logiques », affirme l’ancien directeur des ventes de Talend, un temps directeur de l’Europe du Sud chez Databricks. « C’est aussi un très bon défi pour nous [chez IBM] », ajoute Thibault de Baecker.