Cet article fait partie de notre guide: Les stratégies clés autour du Data Mesh

Fivetran veut s’assurer sa place dans la « Modern Data Stack »

Perçu comme un outil pour automatiser les jobs ELT/ETL, Fivetran cherche désormais à adapter sa technologie pour mieux répondre aux besoins spécifiques liés à la « Modern Data Stack ». Si le nerf de la guerre demeure les connecteurs, l’éditeur explore un moyen de traiter les données non structurées et souhaite renforcer la gouvernance des pipelines, ainsi que sa prise en charge du streaming de données.

Des connecteurs additionnels, une plus grande vélocité et une plateforme robuste. Voilà les principaux efforts réalisés par Fivetran ces deux dernières années. « Ces trois aspects sont importants, car plus nous investissons dans ces domaines, plus nos clients peuvent employer notre plateforme pour différents cas d’usage », affirme Taylor Brown, cofondateur et COO de Fivetran.

Le deux novembre, Fivetran a annoncé que sa solution dispose près de 445 connecteurs sources et 14 destinations. Elle est utilisée par plus de 45 000 usagers. Il a présenté un SDK qu’il met dans les mains des entreprises et de ses partenaires. Ils pourront ainsi développer leurs propres connecteurs (sources) et cibles (destinations).

Proposant à l’origine une plateforme uniquement cloud, l’éditeur s’est adapté à la demande de ses clients en proposant une offre hybride et une autre totalement on premise. « C’est quelque chose que nos clients nous réclamaient de longue date », confie le COO.

Pour se doter de ces capacités hybrides et sur site, Taylor Brown explique que l’entreprise s’est appuyée sur l’acquisition de HVR, pour 700 millions de dollars en 2021. HVR est un spécialiste du Change Data Capture et de la réplication en presque temps réel, un concurrent de Qlik Replicate. Pour autant, Taylor Brown estime qu’environ 80 % de ses clients exploiteront la version cloud de la plateforme.

Fivetran veut montrer qu’il a gagné en maturité

Pour rappel, l’entreprise a levé 853 millions de dollars au total, dont une phase de financement par de la dette, d’un montant de 125 millions de dollars annoncé en mai 2023.

Si Fivetran peut aider ses clients à migrer leurs données depuis des systèmes on premise vers le cloud, « ce n’est pas [sa] compétence principale ». Alors qu’il pouvait être perçu comme un outil ELT en direction des équipes marketing, 60 % de son activité consiste désormais à répliquer automatiquement des données depuis des bases des données et des ERP sur site vers leurs homologues sur le cloud.

L’outil, d’abord utilisé par des startups, est de plus en plus apprécié des entreprises, selon Taylor Brown.

« Chez nos clients, la moitié des pipelines sont “faits maison” avec des outils très variés », déclare-t-il. « Nous pouvons les automatiser et ils peuvent réassigner leurs ressources pour d’autres projets, se concentrer sur le modèle de données ».

Cela ne veut pas dire que ces outils, dont Informatica, Talend ou d’autres, disparaissent. « Les solutions de transformation de données tierces sont parfois utilisées par nos clients en aval. Toutefois, en ce qui concerne l’ingestion, la migration et le change data capture, ils tendent à remplacer leurs composants existants par Fivetran », poursuit-il.

Le phénomène est plutôt récent pour la société fondée en 2012. Cet essor semble se confirmer depuis trois ans.

« Nous avons d’abord travaillé avec les startups qui n’employaient pas d’outils ELT/ELT. C’est quelque chose de plus long à faire avec les grandes entreprises, car elles ont déjà plusieurs systèmes en place », constate Taylor Brown.

Si son métier tient plus de la réplication, de la synchronisation (change data capture) que de la migration vers le cloud, Fivetran voit bien que l’adoption des solutions cloud native est de plus en plus répandue. Ces mouvements de données partent de systèmes tels SAP HANA, DB2, SQL Server, MySQL vers Snowflake, Amazon S3, Redshift, Databricks ou encore Google BigQuery.

 L’avènement de la « Modern Data Stack »

Selon le dirigeant, cette tendance va de pair avec l’émergence de la « Modern Data Stack ».

Une Modern Data Stack est souvent définie comme une combinaison d’outils pour ingérer, traiter, stocker et visualiser des données. Au cœur de cette architecture se trouvent les data warehouse cloud.

« Le principal apport de la Modern Data Stack tient dans le fait que les data warehouse cloud sont meilleurs, plus élastiques, et moins chers que leurs cousins on premise. »
Taylor BrownCofondateur et COO, Fivetran

« Le principal apport de la Modern Data Stack tient dans le fait que les data warehouse cloud sont meilleurs, plus élastiques, et moins chers que leurs cousins on premise », assure Taylor Brown. « Si un client adopte cette pile technologique, ce que la plupart des entreprises vont faire, disposer d’un système d’ingestion de données automatisé est sûrement la première étape la plus importante », ajoute-t-il.

Le COO constate que des acteurs à l’opposé du spectre sont en train d’adopter la même approche.

« L’architecture de Snowflake est pensée comme un data warehouse pour vos usagers types d’Oracle. Databricks, c’est votre data lake pour les data scientists. Ces deux approches sont en train de fusionner », note-t-il. « Ces acteurs entendent proposer la même chose. C’est complexe, car originellement, ils ne s’adressent pas à la même audience », poursuit-il. « RedShift est plutôt à ranger à côté de Snowflake, bien qu’il soit plus ancien. Je pense que BigQuery est à mi-chemin, il est à la fois simple à prendre en main et exploité par les data scientists. Plus il y a de nouveaux acteurs, comme Starburst qui se place également au milieu ».

 Selon le dirigeant, les entreprises ont désormais tendance à fonder leur architecture sur un data lake, ou sur une couche de stockage objet tel S3.

« Nous pensons qu’à long terme, la couche de stockage deviendra S3 ou Azure Blob Storage, puis les entreprises utiliseront différents moteurs de requêtes par-dessus, pour la plupart des tâches liées au traitement de données, à l’analytique, au machine learning et à l’IA », envisage Taylor Brown.

Données non structurées, gouvernance, streaming : des aires exploratoires pour Fivetran

Traditionnellement, Fivetran a évolué dans le monde relationnel, dans le mouvement de données structurées et semi-structurées. Il est donc à ranger, philosophiquement tout du moins, du côté de Snowflake et de RedShift.

« Nous sommes en train d’examiner la possibilité, non pas de déplacer des données, mais des objets, pour prendre en charge les données non structurées. »
Taylor BrownCofondateur et COO, Fivetran

« Cela nous convient pour l’instant, mais nous sommes en train de regarder dans les deux directions. Nous sommes en train d’examiner la possibilité, non pas de déplacer des données, mais des objets, pour prendre en charge les données non structurées », note Taylor Brown. « Je pense qu’il y a beaucoup de clients qui ont de grands data stores à différents endroits qu’ils souhaiteraient déplacer, mais ils voudraient le faire sans décomposer les objets ».

Pour l’heure, le moteur ELT/ETL de Fivetran analyse les structures colonnaires, détecte ou non la présence de schémas et sert à bouger les lignes et les colonnes sources. « Cela ne fonctionne pas tout le temps dans le contexte d’un data lake ».

L’autre terrain de jeu à explorer pour Fivetran n’est autre que le streaming de données.

Actuellement, la majorité des charges de travail sont effectuées en batch, « mais nous pouvons descendre à la maille du microbatch, autour de la minute », assure Tailor Brown. « Avec certains warehouse cloud, il est difficile d’obtenir des latences très faibles sans générer des coûts très importants. Nous pensons que l’envoi de données en batch est satisfaisant pour la plupart des clients et le streaming apporte son lot de complexité ».

Pour autant, dans environ 10 % des cas, le streaming s’avère essentiel. « Nous sommes en train d’étudier un moyen de réduire la latence lors de la réplication depuis des bases de données. Nous nous appuyons sur la lecture de logs, ce qui est nécessaire pour des charges de travail de streaming, mais nous avons besoin de revoir notre moteur pour écrire directement au format propre à Confluent ou à Kafka », explique Tailor Brown.

L’éditeur doit également améliorer sa capacité de gestion des métadonnées et des rôles. « Nous pouvons ingérer certaines de ces métadonnées, mais nous pouvons faire plus. Les clients veulent plus de contrôle sur la gouvernance et la gestion des accès », constate le responsable.

Cela pourrait lui permettre de se raccrocher à une autre tendance : l’approche Data Mesh. « Je pense que beaucoup d’entreprises vont l’adopter. Ce n’est pas encore clair comment Fivetran peut s’adapter à cette approche, mais nous sommes en train de l’étudier », relate Taylor Brown.

Pour approfondir sur Middleware et intégration de données

Close