Chaosamran_Studio - stock.adobe.

Boris Jabes : « Census et Fivetran créent une forme d’iPaaS centré sur les données »

LeMagIT a pu s’entretenir avec Boris Jabes, cofondateur et CEO de Census, un éditeur d’une solution de Reverse ETL racheté par Fivetran. Les deux entreprises combinées veulent favoriser la création de hubs unifiés, alimentés par sa suite d’ingestion, de transformation et de fédération de données.

En mai 2025, Fivetran annonçait le rachat de Census, l’éditeur d’une solution prĂ©sentĂ©e comme une « plateforme de donnĂ©es universelle Â» pour l’unification, la dĂ©duplication, l’amĂ©lioration et l’activation de donnĂ©es. Plus spĂ©cifiquement, c’est un système de Reverse ETL adaptĂ© aux besoins des Ă©quipes marketing.

LeMagIT a rencontrĂ© au dĂ©but du mois de juillet Boris Jabes, cofondateur et CEO de Census. L’occasion de revenir sur la naissance de l’entreprise et l’avenir de sa plateforme chez Fivetran. La combinaison des deux technologies vise Ă  servir un plus grand nombre de cas d’usage – notamment dans les entitĂ©s marketing des entreprises, mais aussi d’étendre les capacitĂ©s de Fivetran au-delĂ  du mouvement de donnĂ©es.  

LeMagIT : Pouvez-vous vous prĂ©senter, vous et votre parcours ?

Boris Jabes, cofondateur et CEO, CensusBoris Jabes, cofondateur et CEO,
Census

Boris Jabes : Je suis Boris Jabes. J’ai grandi Ă  Paris. J’ai fait l’École alsacienne, puis je suis retournĂ© au Canada pour faire mes Ă©tudes d’informatique Ă  l’universitĂ© de Waterloo. J’ai commencĂ© la fac en 1998. Je pensais pouvoir rejoindre les « dot com Â», on nous avait vendu l’image de la Californie, mais avant la fin de mon parcours la bulle Internet avait Ă©clatĂ©. Nous Ă©tions Ă©nervĂ©s, les stages Ă©taient annulĂ©s.

J’adorais le monde acadĂ©mique, mon père Ă©tait prof. Je me suis rendu aux États-Unis pour obtenir un deuxième diplĂ´me. J’ai obtenu mon master Ă  l’universitĂ© de Carnegie Mellon. Il y avait deux thèmes que j’aimais beaucoup : les systèmes distribuĂ©s (les rĂ©seaux) et les langages de programmation. J’étais fascinĂ© par les langages, peut-ĂŞtre parce que j’ai grandi trilingue. J’étais toujours un peu l’étranger dans chaque pays.

Mon premier emploi, c’était chez Microsoft et j’ai commencé ma carrière dans les outils de développement. J’ai travaillé sur Visual Studio.

Chez Census et Fivretan, l’on blague parfois sur le fait que les gens pensent trop à la tuyauterie et pas assez aux effets. C’est pareil dans les outils de développement. Je travaillais sur le compilateur C++. Quelque chose de bas niveau. Mais si vous arrivez à améliorer la génération de code dans Visual Studio, cela veut dire que Windows est plus rapide, Chrome est plus rapide, grosso modo tout le monde profite de cette amélioration. J’ai vraiment compris à cette époque-là l’effet de levier incroyable des technologies.

Sept ans plus tard, avec mes cofondateurs, nous avons commencé à voir la beauté du SaaS. C’était en 2011-2012. Pour une raison simple, c’étaient des logiciels plus ergonomiques, il n’y avait pas besoin que votre patron les choisisse pour vous. Quand je travaillais chez Microsoft, je ne choisissais rien du tout. C’était donné par Dieu. Nos applications étaient un peu laides, mais elles fonctionnaient.

Je voyais mes amis qui travaillaient dans les startups qui commençaient à utiliser GitHub, Dropbox, etc. C’était génial… mais ils avaient beaucoup de mots de passe, c’était un peu chaotique pour dire qui était authentifié dans tel système.

Nous nous sommes rendu compte qu’il y aurait un problème entre l’adoption et la gestion du SaaS. Donc, nous avons lancĂ© notre première entreprise au dĂ©but de l’annĂ©e 2012. Notre idĂ©e c’était : si l’on pouvait centraliser le concept de l’employĂ© et du mot de passe, l’on pourrait le fĂ©dĂ©rer Ă  n’importe quelle application. Comme cela, l’employĂ© pourrait utiliser l’outil SaaS de son choix, mais son entreprise en conserverait la gestion.

Nous sommes allés à San Francisco, nous avons levé de l’argent. C’est à la même période que j’ai rencontré George Fraser et Taylor Brown [les cofondateurs, CEO et COO de Fivetran, N.D.L.R.] quand ils lançaient Fivetran.

Nous avons construit une « appli Â» qui Ă©tait un peu en avance. Elle permettait de faire de la gestion de mot de passe et du SSO [Meldium, N.D.L.R.]. Nous faisions de l’Okta avant l’heure, mais nous Ă©tions naĂŻfs sur la manière dont les entreprises gèrent leurs logiciels. Donc, nous avons dĂ©veloppĂ© un service orientĂ© consommateur et PME. Nous avons eu beaucoup de succès Ă  San Francisco. Nous l’avons revendu Ă  la fin de l’annĂ©e 2014 Ă  une entreprise qui savait distribuer ce genre de produit : LogMeIn.

C’est Ă  ce moment-lĂ  que j’ai attrapĂ© le « bug Â» de la fĂ©dĂ©ration de donnĂ©es.

LeMagIT : Comment est nĂ© Census ?

Boris Jabes : Plus tard, j’ai commencĂ© Ă  discuter avec des responsables commerciaux et marketing. Ils ne savaient rien de mes utilisateurs et je ne comprenais pas pourquoi. Nous avions une base de donnĂ©es d’usagers de SaaS, ce qui permettait en thĂ©orie de leur envoyer des mails personnalisĂ©s. Au lieu de ça, ils leur envoyaient des messages gĂ©nĂ©riques.

Je ne comprenais pas pourquoi ce n’était pas intégré. Les outils de l’époque, dont Zapier, ne semblaient pas fonctionner pour ce cas d’usage. J’en suis revenu au même enjeu que nous avions noté à la création de Meldium. Pour avoir une version correcte des informations dans chaque application, il faut les fédérer dans un endroit central.

C’est pourquoi nous avons appelĂ© l’entreprise Census. Dans un pays, il n’y a qu’un seul recensement. Mais s’il faut un environnement central que devrait-il ĂŞtre ? OĂą stocker toutes ces donnĂ©es ? Nous avons commencĂ© en 2018. Nous nous sommes dit qu’il nous fallait une base de donnĂ©es.

Notre premier connecteur allait de Salesforce Ă  Amazon Redshift. RedShift Ă©tait idĂ©al pour stocker ces donnĂ©es. C’était lent, mais nous Ă©tions capables de les fĂ©dĂ©rer. D’ailleurs, Ă  l’époque, peu de personnes dĂ©plaçaient les donnĂ©es de RedShift vers l’extĂ©rieur. Nous avons continuĂ© Ă  dĂ©velopper des connecteurs, tandis que BigQuery, Snowflake et Databricks ont pris de l’ampleur. Peu importe le dĂ©pĂ´t, l’idĂ©e est toujours d’avoir une seule reprĂ©sentation d’un client, d’un usager, bref il faut pouvoir avoir une version de la rĂ©alitĂ© et il faut ensuite la fĂ©dĂ©rer vers les outils comme Marketo, Adobe, etc. Aujourd’hui, nous avons plus de 200 connecteurs.

L’idée était toujours de donner plus de pouvoir aux entreprises. Un de nos premiers clients, c’était une petite société nommée Loom. Plus tard, elle a été acquise par Atlassian. Loom n’avait qu’un ingénieur de données. Il avait écrit quelques lignes de codes pour déterminer qui étaient les utilisateurs importants de leur plateforme afin de leur répondre plus rapidement. Avec Census, il a déployé son code en quelques clics dans l’outil de support technique. Il a bénéficié de cet effet de levier pour un algorithme simple dont l’utilité a été reconnue par l’équipe support et les dirigeants.

Des outils marketing supervisés par l’IT

LeMagIT : Au-delĂ  de la galerie de connecteurs, vous avez mis en place un « Audience Hub Â», ce qui n’existe pas dans la plupart dans les outils de dĂ©placements de donnĂ©es. Pouvez-vous le prĂ©senter ?

Boris Jabes : Oui. Avec les outils BI, les mĂ©tiers ont la possibilitĂ© de crĂ©er des tableaux de bord Ă  l’aide d’interfaces « point & click Â». Nous avons repris le mĂŞme concept, mais pour exploiter les donnĂ©es dans d’autres outils. Si vous voulez faire un segment en libre-service, vous pouvez, mais l’équipe technique a les moyens d’observer, de comprendre et de signaler les erreurs. Il faut permettre aux mĂ©tiers d’accomplir leurs tâches eux-mĂŞmes, mais il faut pouvoir vĂ©rifier s’ils ne font pas d’erreurs de temps Ă  autre.

Par exemple, un de nos gros clients doit s’assurer que les mails de différentes campagnes ne parviennent pas à un groupe de contrôle, qui ne doit jamais recevoir ces messages. Cela permet de vérifier les performances de campagnes. S’ils confiaient cette tâche à l’équipe marketing, elle le ferait moins bien. Ce paramétrage est intégré à un niveau supérieur, ce qui permet aux métiers d’effectuer leur transformation sans compromettre la qualité des résultats.

LeMagIT : Comment ce type de fonctionnalitĂ©s s’intĂ©grera-t-il Ă  Fivetran, qui s’adresse en premier lieu Ă  des Ă©quipes d’ingĂ©nierie de donnĂ©es ou IT ?

Boris Jabes : Je pense que de plus en plus, les Ă©quipes « Data Â» et IT doivent s’attacher Ă  la croissance de l’entreprise. Un bon exemple chez nos clients, ce serait Trainline. Je suis en contact avec une Ă©quipe IT, des ingĂ©nieurs, ils gèrent des clusters Kafka, etc., mais quand je leur demande « quels sont les projets les plus importants ? Â», la moitiĂ© d’entre eux sont liĂ©s Ă  ce que j’appelle du « performance marketing Â». Par exemple, Trainline a des utilisateurs rĂ©guliers, mais d’autres se connectent uniquement sur la plateforme pour acheter des billets de train pour aller en vacances. Les ingĂ©nieurs veulent dĂ©tecter ce deuxième groupe d’utilisateurs afin de leur envoyer un message diffĂ©rent, sinon ils oublient et l’entreprise doit repayer des campagnes publicitaires pour les acquĂ©rir. C’est une Ă©quipe « data Â» qui a dĂ©tectĂ© ce problème, pas le marketing.

C’est lĂ  oĂą la complĂ©mentaritĂ© entre Fivetran et Census est forte. Census avait la capacitĂ© de propulser des « expĂ©riences Â» avec les segments, mais nous ne pouvions pas dire si ces tests avaient fonctionnĂ©. Nous n’avions pas les rĂ©sultats en provenance des outils des rĂ©seaux sociaux ou des plateformes. Nous laissions cela aux Ă©quipes chez nos clients le faire, d’assembler des outils comme Fivetran, Census et d’autres pour l’analyse.

Ensemble, nous allons pouvoir dire aux DSI et aux chief data officers qu’évidemment ils doivent gérer des plateformes de données et les équipes associées, mais leur objectif doit rester la croissance de l’entreprise. Cela peut être obtenu à travers de l’analyse mensuelle afin d’identifier des marchés émergents. C’est aussi possible en automatisant les expériences, afin d’identifier ces sources de revenus tout en supervisant les jobs de segmentation. C’est là notre force combinée. Si nos produits sont séparés, il y aura toujours une latence minimale – d’extraction, de transformation, de chargement. Plus les outils sont intégrés, plus le temps entre la pression d’un bouton en amont et l’obtention d’un résultat en aval est réduit.

« Plus les outils sont intĂ©grĂ©s, plus le temps entre la pression d’un bouton en amont et l’obtention d’un rĂ©sultat en aval est rĂ©duit Â».
Boris JabesCofondateur et CEO, Census

Reverse ETL et connecteurs de qualité, les deux atouts pour se différencier

LeMagIT : Venons-en au Reverse ETL. Le rachat de Census a Ă©tĂ© prĂ©sentĂ© comme un moyen pour Fivetran d’acquĂ©rir cette fonctionnalitĂ© qu’elle n’avait pas.

Boris Jabes : Exact. Notre but, ensemble, est de favoriser la crĂ©ation d’un hub qui unifie toutes les donnĂ©es dans chaque entreprise. Pour ce faire, il faut pouvoir connecter tous les systèmes de l’entreprise afin d’y extraire les donnĂ©es, puis les transformer dans le hub. Il faut pouvoir Ă©galement tirer ces donnĂ©es du centre vers n’importe quelle destination. La combinaison de Fivetran et de Census revient Ă  former l’équivalent d’un iPaaS Qlik Talend, Alteryx ou Informatica. La diffĂ©rence tient dans le fait que Fivetran et Census se sont lancĂ©s avec cette notion de dĂ©pĂ´t central de donnĂ©es vĂ©rifiĂ©es. Il s’agissait de mettre le data lake au centre. Les Ă©diteurs qui font de l’intĂ©gration gĂ©nĂ©ralisĂ©e, Ă  l’inverse, pensent d’abord aux connecteurs.

LeMagIT : Faut-il que ce hub central soit analytique ou transactionnel ?

Boris Jabes : Tous les systèmes sont en train de converger. Salesforce converge vers Snowflake, Snowflake converge vers Salesforce, tout comme Databricks. Tous les fournisseurs de plateforme veulent que leur solution soit le point central. Évidemment, ils doivent proposer des capacitĂ©s transactionnelles et analytiques. Le pouvoir du Reverse ETL permet d’adopter un système analytique relativement lent, mais idĂ©al pour stocker de gros volumes de donnĂ©es. Il s’agit ensuite d’y greffer des outils satellites. Par exemple, une des destinations populaires en ce moment, c’est Elasticsearch. S’il est mis Ă  jour une fois toutes les heures, il est toujours possible de poser des questions sĂ©mantiques sur les donnĂ©es qu’il a indexĂ©es.

« Le pouvoir du Reverse ETL permet d’adopter un système analytique relativement lent, mais idĂ©al pour stocker de gros volumes de donnĂ©es Â».
Boris JabesCofondateur et CEO, Census

LeMagIT : Comment la fonction de Reverse ETL de Census fonctionne-t-elle ?

Boris Jabes : Nous devons matĂ©rialiser, si vous voulez, la capture des changements de donnĂ©es (CDC) qui existe partout. Vous vous connectez Ă  votre lac de donnĂ©es ou Ă  Snowflake et vous Ă©crivez votre requĂŞte. Ça peut ĂŞtre une simple ligne ou ça peut ĂŞtre la sĂ©lection complète de cette table.

Ensuite, vous dĂ©finissez la frĂ©quence (jour, heure, minute) et la direction dans laquelle vous voulez que les donnĂ©es circulent. Vous configurez la connexion, vous spĂ©cifiez quelle est la clĂ© primaire entre les deux systèmes, etc. Vous dĂ©finissez les règles : par exemple, nous pouvons mettre Ă  jour les enregistrements existants, en ajouter de nouveaux ou en supprimer. Si vous voulez vraiment que votre synchronisation soit complète, vous pouvez mĂŞme supprimer automatiquement les Ă©lĂ©ments qui ont Ă©tĂ© effacĂ©s dans le système source.

Le processus fonctionne de manière similaire à la synchronisation bidirectionnelle. Notre système se réveille chaque heure, exécute la requête et compare avec la copie que nous avons mise dans votre Snowflake l’heure précédente. Dans cette copie, nous avons marqué tous les enregistrements qui ont été synchronisés avec succès et ceux qui ont été rejetés.

Les rejets peuvent survenir pour diverses raisons : par exemple, le système cible dit « je n’accepte pas ce courriel, car il est mal formatĂ© Â», ou « j’ai une utilisation CPU trop Ă©levĂ© Â», ou « il y a trop d’utilisateurs simultanĂ©s Â», ou encore « vous avez des doublons Â». Nous enregistrons toutes ces informations, les stockons dans notre système et crĂ©ons un delta (diffĂ©rentiel).

Nous effectuons la comparaison directement dans Snowflake, ce qui est très efficace. Nous réalisons la transformation côté client. Puis nous recommençons le cycle.

Un des défis majeurs que nous avons dû relever dès le départ concernait les outils SaaS. Les bases de données traditionnelles comme PostgreSQL, Oracle ou Snowflake sont assez performantes pour les opérations de lecture et d’écriture. Même les bases de données analytiques sont optimisées pour recevoir des données quotidiennement.

En revanche, les systèmes SaaS ont des API efficaces pour la lecture, mais leurs API d’écriture sont souvent médiocres. Vous rencontrez donc des problèmes de performance, des complications quand vous écrivez des données (par exemple, un processus automatique se déclenche dans le système et tout ralentit). Vous pouvez seulement écrire via un identifiant principal, mais si vous n’utilisez pas l’email comme identifiant, le système refuse l’opération.

Nous devons donc compenser ces limitations dans notre système. La valeur ajoutĂ©e de Census rĂ©side dans le fait que toutes ces difficultĂ©s disparaissent grâce Ă  la qualitĂ© des connecteurs que nous avons dĂ©veloppĂ©s depuis 6-7 ans.

LeMagIT : Justement, les acteurs comme Snowflake, Databricks et d’autres dĂ©veloppent des solutions de gestions pipelines ETL/ELT. Les percevez-vous comme des adversaires ?

Boris Jabes : Nous allons voir comment cela va se dĂ©velopper. Les ingĂ©nieurs seront sans doute très contents d’obtenir des outils pour orchestrer leurs pipelines de donnĂ©es bidirectionnelles. L’orchestration est un Ă©lĂ©ment nĂ©cessaire, mais nos clients ne veulent pas gĂ©rer les connecteurs. Entre Census et Fivetran, nous en avons plus de 900. Il faut ĂŞtre un peu fou pour internaliser ce processus. Nous faisons partie des rares entreprises dont le rĂ´le est de superviser chaque mois les changements opĂ©rĂ©s par tel ou tel Ă©diteur Ă  son API et d’adapter les connecteurs en consĂ©quence.

Pour environ 20 % de nos connecteurs, au lieu de recevoir une erreur 428 ou 429 du système source afin d’indiquer qu’il faut ralentir la cadence, ils reçoivent une erreur 500 et « crashent Â» directement. C’est Ă  nous de dĂ©terminer que ce crash est en fait liĂ© Ă  un ralentissement du système source et non au connecteur. Cela ne s’apprend qu’en ayant mis beaucoup de connecteurs en production. Il faut aussi gĂ©rer les cas limites qui ne peuvent se dĂ©clarer que dans des situations prĂ©cises, des mois après le lancement d’un connecteur.

Je pense donc que Snowflake, Databricks et les autres vont investir dans l’orchestration, mais pas forcĂ©ment dans la qualitĂ© des connecteurs. Je pense qu’ils veulent rĂ©duire la nĂ©cessitĂ© d’utiliser quelque chose comme Airflow, mais je ne pense pas qu’ils veulent Ă©crire et gĂ©rer 900 connecteurs.

Une feuille de route dense

LeMagIT : Nous avons parlĂ© beaucoup de mouvement de donnĂ©es, mais les entreprises prennent de plus en plus conscience de l’importance de la qualitĂ© de donnĂ©es. PrĂ©voyez-vous de lancer des fonctionnalitĂ©s dans ce domaine chez Fivetran ?

Boris Jabes : Oui. Je ne vais pas encore les annoncer, mais nous cherchons Ă  boucler la boucle. Trois mois avant le rachat de Census par Fivetran, nous avons lancĂ© des fonctionnalitĂ©s et nous continuons Ă  les dĂ©velopper. Nous faisons de la dĂ©duplication, de la rĂ©solution d’entitĂ©, etc. Fivetran a Ă©galement lancĂ© des outils de transformation en janvier. Il s’agit de dĂ©blayer les enjeux de nettoyage afin d’aider ensuite les entreprises Ă  modĂ©liser leurs donnĂ©es pour qu’elles soient utiles.

LeMagIT : Census va-t-il perdurer en tant qu’entitĂ© indĂ©pendante dans le giron Fivetran ?

 Boris Jabes : Je dirais que ces choses peuvent toujours changer, mais pour l’annĂ©e Ă  venir, Census est un produit qui continue Ă  se vendre tous les jours. DĂ©sormais, un client de Fivetran peut acheter Census sans avoir Ă  signer un deuxième contrat.

Petit à petit, nous allons permettre d’utiliser le même système de consommation d’enregistrement au lieu d’acheter Census en une seule fois.

À long terme, ce serait mieux qu’il y ait une seule interface pour gérer les flux de données de bout en bout pour que nos clients puissent analyser les erreurs, les débogages, etc. Cette approche a une forme de data lineage. Je ne sais pas encore quelle forme cela prendra réellement. Ensuite, il y a la volonté de réduire la latence d’un bout à l’autre. Nous pouvons effectuer des traitements en quasi temps réel. Mais nous sommes limités par les architectures sous-jacentes. Census peut déjà se connecter à Kafka, mais nous chercherons à accélérer ces traitements en combinant les systèmes de Census et de Fivetran.

L’entreprise combinée peut déjà presque tout connecter de A à Z. Reste à unifier nos outils de transformation et d’en poursuivre le développement. Ensuite, Fivetran a lancé Managed Data Lake en juin 2024. Census s’était également lancé dans ce domaine. Je pense que ce sont sur ces aspects que vous constaterez les plus gros changements l’année prochaine.

Pour approfondir sur Middleware et intégration de données