fazon - Fotolia

Fivetran veut s’assurer sa place dans la « Modern Data Stack »

Perçu comme un outil pour automatiser les jobs ELT/ETL, Fivetran cherche désormais à adapter sa technologie pour mieux répondre aux besoins spécifiques liés à la « Modern Data Stack ». Si le nerf de la guerre demeure les connecteurs, l’éditeur explore un moyen de traiter les données non structurées et souhaite renforcer la gouvernance des pipelines, ainsi que sa prise en charge du streaming de données.

Des connecteurs additionnels, une plus grande vĂ©locitĂ© et une plateforme robuste. VoilĂ  les principaux efforts rĂ©alisĂ©s par Fivetran ces deux dernières annĂ©es. « Ces trois aspects sont importants, car plus nous investissons dans ces domaines, plus nos clients peuvent employer notre plateforme pour diffĂ©rents cas d’usage Â», affirme Taylor Brown, cofondateur et COO de Fivetran.

Le deux novembre, Fivetran a annoncĂ© que sa solution dispose près de 445 connecteurs sources et 14 destinations. Elle est utilisĂ©e par plus de 45 000 usagers. Il a prĂ©sentĂ© un SDK qu’il met dans les mains des entreprises et de ses partenaires. Ils pourront ainsi dĂ©velopper leurs propres connecteurs (sources) et cibles (destinations).

Proposant Ă  l’origine une plateforme uniquement cloud, l’éditeur s’est adaptĂ© Ă  la demande de ses clients en proposant une offre hybride et une autre totalement on premise. « C’est quelque chose que nos clients nous rĂ©clamaient de longue date Â», confie le COO.

Pour se doter de ces capacitĂ©s hybrides et sur site, Taylor Brown explique que l’entreprise s’est appuyĂ©e sur l’acquisition de HVR, pour 700 millions de dollars en 2021. HVR est un spĂ©cialiste du Change Data Capture et de la rĂ©plication en presque temps rĂ©el, un concurrent de Qlik Replicate. Pour autant, Taylor Brown estime qu’environ 80 % de ses clients exploiteront la version cloud de la plateforme.

Fivetran veut montrer qu’il a gagné en maturité

Pour rappel, l’entreprise a levĂ© 853 millions de dollars au total, dont une phase de financement par de la dette, d’un montant de 125 millions de dollars annoncĂ© en mai 2023.

Si Fivetran peut aider ses clients Ă  migrer leurs donnĂ©es depuis des systèmes on premise vers le cloud, « ce n’est pas [sa] compĂ©tence principale Â». Alors qu’il pouvait ĂŞtre perçu comme un outil ELT en direction des Ă©quipes marketing, 60 % de son activitĂ© consiste dĂ©sormais Ă  rĂ©pliquer automatiquement des donnĂ©es depuis des bases des donnĂ©es et des ERP sur site vers leurs homologues sur le cloud.

L’outil, d’abord utilisé par des startups, est de plus en plus apprécié des entreprises, selon Taylor Brown.

« Chez nos clients, la moitiĂ© des pipelines sont “faits maison” avec des outils très variĂ©s Â», dĂ©clare-t-il. « Nous pouvons les automatiser et ils peuvent rĂ©assigner leurs ressources pour d’autres projets, se concentrer sur le modèle de donnĂ©es Â».

Cela ne veut pas dire que ces outils, dont Informatica, Talend ou d’autres, disparaissent. « Les solutions de transformation de donnĂ©es tierces sont parfois utilisĂ©es par nos clients en aval. Toutefois, en ce qui concerne l’ingestion, la migration et le change data capture, ils tendent Ă  remplacer leurs composants existants par Fivetran Â», poursuit-il.

Le phénomène est plutôt récent pour la société fondée en 2012. Cet essor semble se confirmer depuis trois ans.

« Nous avons d’abord travaillĂ© avec les startups qui n’employaient pas d’outils ELT/ELT. C’est quelque chose de plus long Ă  faire avec les grandes entreprises, car elles ont dĂ©jĂ  plusieurs systèmes en place Â», constate Taylor Brown.

Si son mĂ©tier tient plus de la rĂ©plication, de la synchronisation (change data capture) que de la migration vers le cloud, Fivetran voit bien que l’adoption des solutions cloud native est de plus en plus rĂ©pandue. Ces mouvements de donnĂ©es partent de systèmes tels SAP HANA, DB2, SQL Server, MySQL vers Snowflake, Amazon S3, Redshift, Databricks ou encore Google BigQuery.

 L’avènement de la « Modern Data Stack Â»

Selon le dirigeant, cette tendance va de pair avec l’émergence de la « Modern Data Stack Â».

Une Modern Data Stack est souvent définie comme une combinaison d’outils pour ingérer, traiter, stocker et visualiser des données. Au cœur de cette architecture se trouvent les data warehouse cloud.

« Le principal apport de la Modern Data Stack tient dans le fait que les data warehouse cloud sont meilleurs, plus Ă©lastiques, et moins chers que leurs cousins on premise. Â»
Taylor BrownCofondateur et COO, Fivetran

« Le principal apport de la Modern Data Stack tient dans le fait que les data warehouse cloud sont meilleurs, plus Ă©lastiques, et moins chers que leurs cousins on premise Â», assure Taylor Brown. « Si un client adopte cette pile technologique, ce que la plupart des entreprises vont faire, disposer d’un système d’ingestion de donnĂ©es automatisĂ© est sĂ»rement la première Ă©tape la plus importante Â», ajoute-t-il.

Le COO constate que des acteurs à l’opposé du spectre sont en train d’adopter la même approche.

« L’architecture de Snowflake est pensĂ©e comme un data warehouse pour vos usagers types d’Oracle. Databricks, c’est votre data lake pour les data scientists. Ces deux approches sont en train de fusionner Â», note-t-il. « Ces acteurs entendent proposer la mĂŞme chose. C’est complexe, car originellement, ils ne s’adressent pas Ă  la mĂŞme audience Â», poursuit-il. « RedShift est plutĂ´t Ă  ranger Ă  cĂ´tĂ© de Snowflake, bien qu’il soit plus ancien. Je pense que BigQuery est Ă  mi-chemin, il est Ă  la fois simple Ă  prendre en main et exploitĂ© par les data scientists. Plus il y a de nouveaux acteurs, comme Starburst qui se place Ă©galement au milieu Â».

 Selon le dirigeant, les entreprises ont dĂ©sormais tendance Ă  fonder leur architecture sur un data lake, ou sur une couche de stockage objet tel S3.

« Nous pensons qu’à long terme, la couche de stockage deviendra S3 ou Azure Blob Storage, puis les entreprises utiliseront diffĂ©rents moteurs de requĂŞtes par-dessus, pour la plupart des tâches liĂ©es au traitement de donnĂ©es, Ă  l’analytique, au machine learning et Ă  l’IA Â», envisage Taylor Brown.

DonnĂ©es non structurĂ©es, gouvernance, streaming : des aires exploratoires pour Fivetran

Traditionnellement, Fivetran a évolué dans le monde relationnel, dans le mouvement de données structurées et semi-structurées. Il est donc à ranger, philosophiquement tout du moins, du côté de Snowflake et de RedShift.

« Nous sommes en train d’examiner la possibilitĂ©, non pas de dĂ©placer des donnĂ©es, mais des objets, pour prendre en charge les donnĂ©es non structurĂ©es. Â»
Taylor BrownCofondateur et COO, Fivetran

« Cela nous convient pour l’instant, mais nous sommes en train de regarder dans les deux directions. Nous sommes en train d’examiner la possibilitĂ©, non pas de dĂ©placer des donnĂ©es, mais des objets, pour prendre en charge les donnĂ©es non structurĂ©es Â», note Taylor Brown. « Je pense qu’il y a beaucoup de clients qui ont de grands data stores Ă  diffĂ©rents endroits qu’ils souhaiteraient dĂ©placer, mais ils voudraient le faire sans dĂ©composer les objets Â».

Pour l’heure, le moteur ELT/ETL de Fivetran analyse les structures colonnaires, dĂ©tecte ou non la prĂ©sence de schĂ©mas et sert Ă  bouger les lignes et les colonnes sources. « Cela ne fonctionne pas tout le temps dans le contexte d’un data lake Â».

L’autre terrain de jeu à explorer pour Fivetran n’est autre que le streaming de données.

Actuellement, la majoritĂ© des charges de travail sont effectuĂ©es en batch, « mais nous pouvons descendre Ă  la maille du microbatch, autour de la minute Â», assure Tailor Brown. « Avec certains warehouse cloud, il est difficile d’obtenir des latences très faibles sans gĂ©nĂ©rer des coĂ»ts très importants. Nous pensons que l’envoi de donnĂ©es en batch est satisfaisant pour la plupart des clients et le streaming apporte son lot de complexitĂ© Â».

Pour autant, dans environ 10 % des cas, le streaming s’avère essentiel. « Nous sommes en train d’étudier un moyen de rĂ©duire la latence lors de la rĂ©plication depuis des bases de donnĂ©es. Nous nous appuyons sur la lecture de logs, ce qui est nĂ©cessaire pour des charges de travail de streaming, mais nous avons besoin de revoir notre moteur pour Ă©crire directement au format propre Ă  Confluent ou Ă  Kafka Â», explique Tailor Brown.

L’éditeur doit Ă©galement amĂ©liorer sa capacitĂ© de gestion des mĂ©tadonnĂ©es et des rĂ´les. « Nous pouvons ingĂ©rer certaines de ces mĂ©tadonnĂ©es, mais nous pouvons faire plus. Les clients veulent plus de contrĂ´le sur la gouvernance et la gestion des accès Â», constate le responsable.

Cela pourrait lui permettre de se raccrocher Ă  une autre tendance : l’approche Data Mesh. « Je pense que beaucoup d’entreprises vont l’adopter. Ce n’est pas encore clair comment Fivetran peut s’adapter Ă  cette approche, mais nous sommes en train de l’étudier Â», relate Taylor Brown.

Pour approfondir sur Middleware et intégration de données

Close