Chaosamran_Studio - stock.adobe.

Boris Jabes : « Census et Fivetran créent une forme d’iPaaS centré sur les données »

LeMagIT a pu s’entretenir avec Boris Jabes, cofondateur et CEO de Census, un éditeur d’une solution de Reverse ETL racheté par Fivetran. Les deux entreprises combinées veulent favoriser la création de hubs unifiés, alimentés par sa suite d’ingestion, de transformation et de fédération de données.

En mai 2025, Fivetran annonçait le rachat de Census. L’éditeur d’une solution présentée comme une « plateforme de données universelle » pour l’unification, la déduplication, l’amélioration et l’activation de données. Plus spécifiquement, c’est un système de Reverse ETL adapté aux besoins des équipes marketing.

LeMagIT a rencontré au début du mois de juillet Boris Jabes, cofondateur et CEO de Census. L’occasion de revenir sur la naissance de l’entreprise et l’avenir de sa plateforme chez Fivetran. La combinaison des deux technologies vise à servir un plus grand nombre de cas d’usage – notamment dans les entités marketing des entreprises, mais aussi d’étendre les capacités de Fivetran au-delà du mouvement de données.  

LeMagIT : Pouvez-vous vous présenter, vous et votre parcours ?

Boris Jabes, cofondateur et CEO, CensusBoris Jabes, cofondateur et CEO, Census

Boris Jabes : Je suis Boris Jabes. J’ai grandi à Paris. J’ai fait l’école Alsacienne, puis je suis retourné au Canada pour faire mes études d’informatique à l’université de Waterloo. J’ai commencé la fac en 1998. Je pensais pouvoir rejoindre les « dot com », on nous avait vendu l’image de la Californie, mais avant la fin de mon parcours la bulle Internet avait éclaté. Nous étions énervés, les stages étaient annulés.

J’adorais le monde académique, mon père était prof. Je me suis rendu aux États-Unis pour obtenir un deuxième diplôme. J’ai obtenu mon master à l’université de Carnegie Mellon. Il y avait deux thèmes que j’aimais beaucoup : les systèmes distribués –, les réseaux – et les langages de programmation. J’étais fasciné par les langages, peut-être parce que j’ai grandi trilingue. J’étais toujours un peu l’étranger dans chaque pays.

Mon premier emploi, c’était chez Microsoft et j’ai commencé ma carrière dans les outils de développement. J’ai travaillé sur Visual Studio.

Chez Census et Fivretan, l’on blague parfois sur le fait que les gens pensent trop à la tuyauterie et pas assez aux effets. C’est pareil dans les outils de développement. Je travaillais sur le compilateur C++, quelque chose de bas niveau, mais si vous arrivez à améliorer la génération de code dans Visual Studio, cela veut dire que Windows est plus rapide, Chrome est plus rapide, grosso modo tout le monde profite de cette amélioration. J’ai vraiment compris à cette époque-là l’effet de levier incroyable des technologies.

Sept ans plus tard, avec mes cofondateurs, nous avons commencé à voir la beauté du SaaS. C’était en 2011 – 2012. Pour une raison simple, c’étaient des logiciels plus ergonomiques, il n’y avait pas besoin que votre patron les choisisse pour vous. Quand je travaillais chez Microsoft, je ne choisissais rien du tout. C’était donné par Dieu. Nos applications étaient un peu laides, mais elles fonctionnaient.

Je voyais mes amis qui travaillaient dans les startups qui commençaient à utiliser GitHub, Dropbox, etc. C’était génial… mais ils avaient beaucoup de mots de passe, c’était un peu chaotique pour dire qui était authentifié dans tel système.

Nous nous sommes rendu compte qu’il y aurait un problème entre l’adoption et la gestion du SaaS. Donc, nous avons lancé notre première entreprise au début de l’année 2012. Notre idée c’était : si l’on pouvait centraliser le concept de l’employé et du mot de passe, l’on pourrait le fédérer à n’importe quelle application. Comme cela, l’employé pourrait utiliser l’outil SaaS de son choix, mais son entreprise en conserverait la gestion.

Nous sommes allés à San Francisco, nous avons levé de l’argent. C’est à la même période que j’ai rencontré George Fraser et Taylor Brown [les cofondateurs, CEO et COO de Fivetran, N.D.L.R] quand ils lançaient Fivetran.

Nous avons construit une « appli » qui était un peu en avance. Elle permettait de faire de la gestion de mot de passe et du SSO [Meldium, N.D.L.R]. Nous faisions de l’Okta avant l’heure, mais nous étions naïfs sur la manière dont les entreprises gèrent leurs logiciels. Donc, nous avons développé un service orienté consommateur et PME. Nous avons eu beaucoup de succès à San Francisco. Nous l’avons revendu à la fin de l’année 2014 à une entreprise qui savait distribuer ce genre de produit : LogMeIn.

C’est à ce moment-là que j’ai attrapé le « bug » de la fédération de données.

LeMagIT : Comment est né Census ?

Boris Jabes : Plus tard, j’ai commencé à discuter avec des responsables commerciaux et marketing. Ils ne savaient rien de mes utilisateurs et je ne comprenais pas pourquoi. Nous avions une base de données d’usagers de SaaS, ce qui permettait en théorie de leur envoyer des mails personnalisés. Au lieu de ça, il leur envoyait des messages génériques.

Je ne comprenais pas pourquoi ce n’était pas intégré. Les outils de l’époque, dont Zapier ne semblait pas fonctionner pour ce cas d’usage. J’en suis revenu au même enjeu que nous avions noté à la création de Meldium. Pour avoir une version correcte des informations dans chaque application, il faut les fédérer dans un endroit central.

C’est pourquoi nous avons appelé l’entreprise Census. Dans un pays, il n’y a qu’un seul recensement. Mais s’il faut un environnement central que devrait-il être ? Où stocker toutes ces données ? Nous avons commencé en 2018. Nous nous sommes dit qu’il nous fallait une base de données.

Notre premier connecteur allait de Salesforce à Amazon Redshift. RedShift était idéal pour stocker ces données. C’était lent, mais nous étions capables de les fédérer. D’ailleurs, à l’époque, peu de personnes déplaçaient les données de RedShift vers l’extérieur. Nous avons continué à développer des connecteurs, tandis que BigQuery, Snowflake et Databricks ont pris de l’ampleur. Peu importe le dépôt, l’idée est toujours d’avoir une seule représentation d’un client, d’un usager, bref il faut pouvoir avoir une version de la réalité et il faut ensuite la fédérer vers les outils comme Marketo, Adobe, etc. Aujourd’hui, nous avons plus de 200 connecteurs.

L’idée était toujours de donner plus de pouvoir aux entreprises. Un de nos premiers clients, c’était une petite société nommée Loom. Plus tard, elle a été acquise par Atlassian. Loom n’avait qu’un ingénieur de données. Il avait écrit quelques lignes de codes pour déterminer qui étaient les utilisateurs importants de leur plateforme afin de leur répondre plus rapidement. Avec Census, il a déployé son code en quelques clics dans l’outil de support technique. Il a bénéficié de cet effet de levier pour un algorithme simple dont l’utilité a été reconnue par l’équipe support et les dirigeants.

Des outils marketing supervisés par l’IT

LeMagIT : Au-delà de la galerie de connecteurs, vous avez mis en place un « Audience Hub », ce qui n’existe pas dans la plupart dans les outils de déplacements de données. Pouvez-vous le présenter ?

Boris Jabes : Oui. Avec les outils BI, les métiers ont la possibilité de créer des tableaux de bord à l’aide d’interface « point & click ». Nous avons repris le même concept, mais pour exploiter les données dans d’autres outils. Si vous voulez faire un segment en libre-service vous pouvez, mais l’équipe technique a les moyens d’observer, de comprendre et de signaler les erreurs. Il faut permettre aux métiers d’accomplir leurs tâches eux-mêmes, mais il faut pouvoir vérifier s’ils ne font pas d’erreurs de temps à autre.

Par exemple, un de nos gros clients doit s’assurer que les mails de différentes campagnes ne parviennent pas à un groupe de contrôle, qui ne doit jamais recevoir ces messages. Cela permet de vérifier les performances de campagnes. S’ils confiaient cette tâche à l’équipe marketing, elle le ferait moins bien. Ce paramétrage est intégré à un niveau supérieur, ce qui permet aux métiers d’effectuer leur transformation sans compromettre la qualité des résultats.

LeMagIT : Comment ce type de fonctionnalités s’intégrera à Fivetran qui s’adresse en premier lieu à des équipes d’ingénierie de données ou IT ?

Boris Jabes : Je pense que de plus en plus, les équipes « Data » et IT doivent s’attacher à la croissance de l’entreprise. Un bon exemple chez nos clients, ce serait Trainline. Je suis en contact avec une équipe IT, des ingénieurs, ils gèrent des clusters Kafka, etc., mais quand je leur demande « quels sont les projets les plus importants ? », la moitié d’entre eux sont liés à ce que j’appelle du « performance marketing ». Par exemple, Trainline a des utilisateurs réguliers, mais d’autres se connectent uniquement sur la plateforme pour acheter des billets de train pour aller en vacances. Les ingénieurs veulent détecter ce deuxième groupe d’utilisateurs afin de leur envoyer un message différent, sinon ils oublient et l’entreprise doit repayer des campagnes publicitaires pour les acquérir. C’est une équipe « data » qui a détecté ce problème, pas le marketing.

C’est là où la complémentarité entre Fivetran et Census est forte. Census avait la capacité de propulser des « expériences » avec les segments, mais nous ne pouvions pas dire si ces tests avaient fonctionné. Nous n’avions pas les résultats en provenance des outils des réseaux sociaux ou des plateformes. Nous laissions cela aux équipes chez nos clients le faire, d’assembler des outils comme Fivetran, Census et d’autres pour l’analyse.

Ensemble, nous allons pouvoir dire aux DSI et aux Chief Data officers qu’évidemment ils doivent gérer des plateformes de données et les équipes associées, mais leur objectif doit rester la croissance de l’entreprise. Cela peut être obtenu à travers de l’analyse mensuelle afin d’identifier des marchés émergents. C’est aussi possible en automatisant les expériences afin d’identifier ces sources de revenus tout en supervisant les jobs de segmentation. C’est là notre force combinée. Si nos produits sont séparés, il y aura toujours une latence minimale – d’extraction, de transformation, de chargement. Plus les outils sont intégrés, plus le temps entre la pression d’un bouton en amont et l’obtention d’un résultat en aval est réduit.

« Plus les outils sont intégrés, plus le temps entre la pression d’un bouton en amont et l’obtention d’un résultat en aval est réduit ».
Boris JabesCofondateur et CEO, Census

Reverse ETL et connecteurs de qualité, les deux atouts pour se différencier

LeMagIT : Venons au Reverse ETL. Le rachat de Census a été présenté comme un pour Fivetran d’acquérir cette fonctionnalité qu’elle n’avait pas.

Boris Jabes : exact. Notre but, ensemble, est de favoriser la création d’un hub qui unifie toutes les données dans chaque entreprise. Pour ce faire, il faut pouvoir connecter tous les systèmes de l’entreprise afin d’y extraire les données puis les transformer dans le hub. Il faut pouvoir également tirer ces données du centre vers n'importe quelle destination. La combinaison de Fivetran et de Census revient à former l’équivalent d’un iPaaS Qlik Talend, Alteryx ou Informatica. La différence tient dans le fait que Fivetran et Census se sont lancés avec cette notion de dépôt central de données vérifiées. Il s’agissait de mettre le data lake au centre. Les éditeurs qui font de l’intégration généralisée, à l’inverse, pensent d’abord aux connecteurs.

LeMagIT : Fait-il que ce hub central soit analytique ou transactionnel ?

Boris Jabes : Tous les systèmes sont en train de converger. Salesforce converge vers Snowflake, Snowflake converge vers Salesforce, tout comme Databricks. Tous les fournisseurs de plateforme veulent que leur solution soit le point central. Évidemment, ils doivent proposer des capacités transactionnelles et analytiques. Le pouvoir du Reverse ETL permet d’adopter un système analytique relativement lent, mais idéal pour stocker de gros volumes de données. Il s’agit ensuite d’y greffer des outils satellites. Par exemple, une des destinations populaires en ce moment, c’est Elasticsearch. S’il est mis à jour une fois toutes les heures, il est toujours possible de poser des questions sémantiques sur les données qu’il a indexées.

« Le pouvoir du Reverse ETL permet d’adopter un système analytique relativement lent, mais idéal pour stocker de gros volumes de données ».
Boris JabesCofondateur et CEO, Census

LeMagIT : Comment la fonction de Reverse ETL de Census fonctionne-t-elle ?

Boris Jabes : Nous devons matérialiser, si vous voulez, la capture des changements de données (CDC) qui existe partout. Vous vous connectez à votre lac de données ou à Snowflake et vous écrivez votre requête. Ça peut être une simple ligne ou ça peut être la sélection complète de cette table.

Ensuite, vous définissez la fréquence (jour, heure, minute) et dans quelle direction vous voulez que les données circulent. Vous configurez la connexion, vous spécifiez quelle est la clé primaire entre les deux systèmes, etc. Vous définissez les règles : par exemple, nous pouvons mettre à jour les enregistrements existants, en ajouter de nouveaux ou en supprimer. Si vous voulez vraiment que votre synchronisation soit complète, vous pouvez même supprimer automatiquement les éléments qui ont été effacés dans le système source.

Le processus fonctionne de manière similaire à la synchronisation bidirectionnelle. Notre système se réveille chaque heure, exécute la requête et compare avec la copie que nous avons mise dans votre Snowflake l'heure précédente. Dans cette copie, nous avons marqué tous les enregistrements qui ont été synchronisés avec succès et ceux qui ont été rejetés.

Les rejets peuvent survenir pour diverses raisons : par exemple, le système cible dit « je n'accepte pas ce courriel, car il est mal formaté », ou « j'ai une utilisation CPU trop élevé », ou « il y a trop d'utilisateurs simultanés », ou encore « vous avez des doublons ». Nous enregistrons toutes ces informations, les stockons dans notre système et créons un delta (différentiel).

Nous effectuons la comparaison directement dans Snowflake, ce qui est très efficace. Nous réalisons la transformation côté client. Puis nous recommençons le cycle.

Un des défis majeurs que nous avons dû relever dès le départ concernait les outils SaaS. Les bases de données traditionnelles comme PostgreSQL, Oracle ou Snowflake sont assez performantes pour les opérations de lecture et d'écriture. Même les bases de données analytiques sont optimisées pour recevoir des données quotidiennement.

En revanche, les systèmes SaaS ont des API efficaces pour la lecture, mais leurs API d'écriture sont souvent médiocres. Vous rencontrez donc des problèmes de performance, des complications quand vous écrivez des données (par exemple, un processus automatique se déclenche dans le système et tout ralentit). Vous pouvez seulement écrire via un identifiant principal, mais si vous n'utilisez pas l'email comme identifiant, le système refuse l'opération.

Nous devons donc compenser ces limitations dans notre système. La valeur ajoutée de Census réside dans le fait que toutes ces difficultés disparaissent grâce à la qualité des connecteurs que nous avons développés depuis 6-7 ans.

LeMagIT : Justement, les acteurs comme Snowflake, Databricks et d’autres développent des solutions de gestions pipelines ETL/ELT. Les percevez-vous comme des adversaires ?

Boris Jabes : Nous allons voir comment cela va se développer. Les ingénieurs seront sans doute très contents d’obtenir des outils pour orchestrer leurs pipelines de données bidirectionnelles. L’orchestration est un élément nécessaire, mais nos clients ne veulent pas gérer les connecteurs. Entre Census et Fivetran, nous en avons plus de 900. Il faut être un peu fou pour internaliser ce processus. Nous faisons partie des rares entreprises dont le rôle est de superviser chaque mois les changements opérés par tel ou tel éditeur à son API et d’adapter les connecteurs en conséquence.

Pour environ 20 % de nos connecteurs, au lieu de recevoir une erreur 428 ou 429 du système source afin d’indiquer qu’il faut ralentir la cadence, ils reçoivent une erreur 500 et « crashent » directement. C’est à nous de déterminer que ce crash est en fait lié à un ralentissement du système source et non au connecteur. Cela ne s’apprend qu’en ayant mis beaucoup de connecteurs en production. Il faut aussi gérer les cas limites qui peuvent se déclarer que dans des situations précises des mois après le lancement d’un connecteur.

Je pense donc que Snowflake, Databricks et les autres vont investir dans l’orchestration, mais pas forcément dans la qualité des connecteurs. Je pense qu’ils veulent réduire la nécessité d’utiliser quelque chose comme Airflow, mais je ne pense pas qu’ils veulent écrire et gérer 900 connecteurs.

Une feuille de route dense

LeMagIT : Nous avons parlé beaucoup de mouvement de données, mais les entreprises prennent de plus en plus conscience de l’importance de la qualité de données. Prévoyez-vous de lancer des fonctionnalités dans ce domaine chez Fivetran ?

Boris Jabes : Oui. Je ne vais pas encore les annoncer, mais nous cherchons à boucler la boucle. Trois mois avant le rachat de Census par Fivetran, nous avons lancé des fonctionnalités et nous continuons à les développer. Nous faisons de la déduplication, de la résolution d’entité, etc. Fivetran a également lancé des outils de transformation en janvier. Il s’agit de déblayer les enjeux de nettoyage pour ensuite aider les entreprises à modéliser leurs données pour qu’elles soient utiles.

LeMagIT : Census va-t-il perdurer en tant qu’entité indépendante dans le giron Fivetran ?

 Boris Jabes : Je dirais que ces choses peuvent toujours changer, mais pour l'année à venir, Census est un produit qui continue à se vendre tous les jours. Désormais, un client de Fivetran peut acheter Census sans avoir à signer un deuxième contrat.

Petit à petit, nous allons permettre d'utiliser le même système de consommation d’enregistrement au lieu d’acheter Census en une seule fois.

À long terme, ce serait mieux qu’il y ait une seule interface pour gérer les flux de données de bout en bout pour que nos clients puissent analyser les erreurs, les débogages, etc. Cette approche à une forme de data lineage. Je ne sais pas encore quelle forme cela prendra réellement. Ensuite, il y a la volonté de réduire la latence d’un bout à l’autre. Nous pouvons effectuer des traitements en quasi temps réel. Mais nous sommes limités par les architectures sous-jacentes. Census peut déjà se connecter à Kafka, mais nous chercherons à accélérer ces traitements en combinant les systèmes de Census et de Fivetran.

L’entreprise combinée peut déjà presque tout connecter de A à Z. Reste à unifier nos outils de transformation et d’en poursuivre le développement. Ensuite, Fivetran a lancé Managed Data Lake en juin 2024. Census s’était également lancé dans ce domaine. Je pense que ce sont sur ces aspects que vous constaterez les plus gros changements l’année prochaine.

Pour approfondir sur Middleware et intégration de données