kentoh - Fotolia

De l’ETL en batch aux flux tendus de données : Talend présente Data Streams

L’éditeur s’appuie sur le projet open source Beam pour motoriser son service d’intégration de flux de données. Aujourd’hui gratuite et sur AWS, la solution doit arriver sur Azure à la mi-2018. Une version payante supportera l’hybride.

De l’intégration de données en mode batch à l’intégration en continu il n’y a qu’un pas que Talend a franchi en ce mois de mai. Le spécialiste historique de l’ETL open source a étoffé son catalogue d’un produit d’intégration de flux de données en continu, nommé Data Streams, dont la particularité est d’être l’un des premiers logiciels qui repose sur Apache Beam.  

Apache Beam est en fait un framework open  source de la fondation Apache, issu du projet Dataflow de Google. Ce dernier a confié son SDK à la fondation. Si Mountain View est l’un de ses contributeurs, on y retrouve également Data Artisans, PayPal et Talend - pour n’en citer que certains. Ce framework a l’ambition de favoriser la portabilité dans le cloud de pipelines de données, qu’ils soient batch ou streaming (en continu) - cela est déterminé automatiquement selon la requête.

Cette approche permet ainsi à Talend d’ajouter une fonction de plus en plus demandée par les spécialistes de la manipulation de données comme les data scientists, mais également les ingénieurs et les analystes de la donnée, qui exploitent ces données en flux tendu dans des cas d’usage propres à l’IoT et au Big Data par exemple.

Concrètement, Data Streams permet de développer des pipelines de données multi-formats via une interface graphique qui en facilite l’usage. Il ingère des données tant structurées, issues de bases SQL, par exemple, que de semi ou non structurées. Les formats supportés sont AVRO, JSON, Parquet et CSV, ainsi que la plupart des formats actuels, explique Talend. La solution est également  capable de gérer des flux Kafka, AWS Kinesis ou encore Google Pub/Sub.

Grâce à Beam, les cas d’usage peuvent donc porter sur des traitements soit par lot, soit en streaming. Une fois créés avec Beam, les pipelines peuvent être portés d’un cloud à l’autre. « Les utilisateurs peuvent concevoir un pipeline de données une seule fois, et l'exécuter là où résident les données. Cela signifie que les utilisateurs ne sont pas enfermés dans un cadre de traitement unique ou une plateforme cloud spécifique », explique un responsable de Talend à la rédaction.

Pour pouvoir supporter les données non structurées, et ce avec des forts volumes, Data Streams ingère les flux et lit les données telles quelles, sans que des schémas soient pré-définis (on parle ici de schema-on-read).

Une version payante et Azure sur la feuille de route

Cette version de Data Streams, gratuite, est aussi aujourd’hui disponible uniquement sur la marketplace d’AWS. Mais d’ici la 2eme moitié de l’année, Talend promet une version hébergée sur la marketplace d’Azure.

Mais l’important est qu’une version entreprise et payante est également prévue à la mi-2018. Cette version, intégrée au cloud de la marque, Talend Cloud, et nommée Talend Cloud Data Streams, apportera la dimension certes multi-cloud, mais aussi sur site ("on-premise") pour les environnements hybrides. « Nos clients pourront exécuter leurs pipelines au plus près des données, que ce soit dans un cloud ou on-premise. La capacité de s’intégrer avec les grands clouds publics arrive au second semestre 2018, et l’exécution on-premise dans la première moitié de 2019 », répond ce même responsable de la société.

Cette version payante permettra également de relier Data Streams aux autres outils cloud de la marque et de l’associer à la solution de préparation et de données (Talend Data Preparation) ou encore de gestion du cycle de vie de la donnée, Talend Data StewardShip. Talend promet une intégration « transparente » entre ces briques.

Enfin, Talend prévoit aussi de rendre disponible ce service en mode serverless en 2019.

Pour approfondir sur Big Data et Data lake

Close