William Prunier

Talend pousse en avant son service d’ingestion de données dans le cloud Stitch

L’édition française de la conférence utilisateur Talend Connect fut l’occasion pour Laurent Bride, le CTO de l’éditeur d’argumenter sur la pertinence de l’acquisition de Stitch réalisée en 2018, mais aussi de présenter le nouvel outil SaaS de Talend, Pipeline Designer.

C’est en novembre 2018 que Talend annonçait l’acquisition d’un éditeur de solution d’intégration de données en mode Saas, Stitch. Peu d’entreprises françaises utilisatrices des solutions ETL de Talend ont véritablement testé la solution et Laurent Bride, CTO & COO Talend s’est attaché à présenter ce service en ligne et souligner les avantages d’une solution 100 % Saas capable d’intégrer un flux de données en 4 clics.

Le service doit surtout drainer de nouveaux clients vers Talend au-delà de sa base installée de grands comptes. Cette acquisition à 60 millions de dollars a notamment permis à Talend de franchir la barre des 3 500 clients, mais a aussi accéléré sa stratégie de « cloudification » de son portefeuille de solutions.

« Talend est né en 2005 et il y a 5 ans nous avoir opéré un pivot de nos investissements vers le cloud », a souligné Laurent Bride qui a choisi cette année de mettre tout particulièrement en valeur un éditeur natif cloud partenaire de Talend, Snowflake. Il a partagé son temps de parole avec Benoît Dageville, co-fondateur de la startup, et il a réalisé une démonstration « live » de la mise en place d’une ingestion de données de Shopify vers Snowflake via la plateforme Stitch. Une intégration effectivement mise en place en quelques clics via les connecteurs proposés nativement sur la plateforme Saas.

Pipeline Designer, une nouvelle culture produit pour Talend

C'est cette connexion native vers la base de données cloud Snowflake que l’on retrouve aussi dans Pipeline Designer, un outil de conception de chaîne de traitement de données en Saas, qui constitue, avec l’acquisition de Stitch, le portage de Talend Cloud sur Microsoft Azure et l’outil Data Inventory.

La démonstration la plus bluffante de cette édition 2019 du Talend Connect fut celle de l’outil Pipeline Designer. Anciennement baptisé Talend Data Streams, l’outil n’est facturé qu’à l’usage et qui permet de manipuler données structurées ou non et qui permet de mettre en place des chaînes d’intégration de données complexe en mode graphique, qu’il s’agisse de traitements batch ou de streams temps réel.

Christophe Toum, Directeur produit de Talend s’est livré à une démonstration plus complète de l’outil et il a précisé : « l’acquisition de Stitch ne nous a pas apporté uniquement de la technologie. Elle nous a apporté une nouvelle culture du cloud, une culture du frictionless, c’est-à-dire pouvoir utiliser des produits sans devoir les apprendre, payer uniquement à l’usage avec une carte de crédit, avec une facturation à l’heure. Nous avons commencé à diffuser cette culture chez Talend ». L’outil est aussi une petite révolution technique puisque si d’autres langages sont prévus, pour l’instant la programmation des pipelines est réalisée en Python en non pas en Java.

L’autre point d’orgue pour Talend en 2019 fut le portage de son offre sur le cloud Microsoft Azure, un portage qui de l’aveu de Christophe Toum a nécessité des optimisations de l’architecture, optimisations dont bénéficie par ricochet la version AWS. Ce portage va tout particulièrement intéresser un secteur du Retail en pleine transformation digitale, un secteur où Amazon et AWS font figure de repoussoirs. Un rapide sondage parmi les participants de la conférence plénière a montré que les utilisateurs existants de Talend sont partagés entre AWS et Azure, preuve de la pertinence pour l’éditeur d’élargir son support à d’autres clouds qu’Amazon Web Services seul.

La qualité de la donnée, le préambule nécessaire à une toute stratégie IA

« La qualité de la donnée se doit d’être automatisée dans les process et non pas être une problématique traitée après coup. »
Christophe ToumDirecteur produit, Talend

La gouvernance et la gestion de la qualité des données figurent parmi les priorités de l’édition Winter de la plateforme Talend, c’est-à-dire les fonctionnalités qui seront livrées au dernier trimestre de cette année. De nombreux projets Big Data et d'Intelligence Artificielle butent toujours sur ce problème récurrent de la qualité de la donnée et Talend veut apporter sa pierre à l’édifice.
« La qualité de la donnée se doit d’être automatisée dans les process et non pas être une problématique traitée après coup », estime Christophe Toum. « Il faut intégrer des fonctions de qualité de la donnée dans le pipeline et les automatiser ».

Talend propose plus d’une centaine de fonctions dédiées à la Data Preparation dans son outil et embarque des fonctions de Profiling intelligent de la donnée. Cela permet de reconnaître automatiquement les types de données et comprendre véritablement la sémantique de la donnée pour lui appliquer les règles de qualité adaptées. À l’issue de cette analyse automatique de la donnée importée, Talend Data Inventory délivre un score de la qualité de la donnée, un Trust Score qui va permettre de savoir où porter l’effort pour améliorer les données chargées dans le Data Lake (lac de données) ou le Data Warehouse (entrepôt de données).

« Ce que nous visons à bâtir pour 2020, c’est la Data Fabric la plus avancée du marché, la Data Fabric la plus autonome aussi », a ajouté Christophe Toum. « D’une part il faut orchestrer toutes les étapes d’un pipeline de données qui touche de multiples interlocuteurs dans l’entreprise. Fidèles à l’ADN Open Source de Talend, nous nous intéressons particulièrement au projet Apache Airflow. Nous l’avons intégré afin d’offrir une orchestration managée dans le cloud ».

En outre, Talend veut s’assurer de l’indépendance de la solution au niveau de l’exécution. Pour les besoins de la démonstration, celle-ci a été réalisée sur Apache Spark, mais pourrait l’être sur Databricks ou aussi sur un Data Warehouse comme celui de Snowflake.

« Nous cherchons à obtenir une ubiquité sur le volet exécution, donc nous avons voulu optimiser les temps de traitement en réalisant un push-down du pipeline, lui-même en SQL, pour que les traitements soient réalisés au plus près des données elles-mêmes ». La place de l’IA devrait être grandissante sur la plateforme Talend, notamment pour déclencher des alertes en cas de changements observés à l’exécution, en cas d’anomalies détectées ou de changement d’utilisation sur les données.

Enfin, à l’image de Stitch qui automatise la phase d’ingestion de données en quelques clics, Talend veut faire la même chose pour générer des API d’accès aux datasets en quelques clics. La solution API Creator devrait rejoindre le catalogue Talend en 2020.

Pour approfondir sur Middleware et intégration de données

Close