Data science : le Français Datategy lance sa plateforme en mode SaaS
Dans l’espoir d’attirer les PME vers sa plateforme automatisée de data science, Datategy la décline dans une version SaaS, pour l’heure hébergée sur AWS. Le déploiement d’une version SaaS sur OVHcloud est d’ores et déjà envisagé.
Née en 2016, la startup basée à Puteaux se prépare à lancer la version SaaS de PapAI, sa plateforme combinant data engineering et MLOps.
Pour rappel, celle qui s’est lancée d’abord dans la consultance a présenté en 2020 la première version de sa suite low-code/no-code. Datategy a su convaincre une dizaine de clients de grands comptes, collectivités et ETI. Historiquement, l’éditeur s’est rapproché des acteurs du transport, dont Keolis, SNCF Réseau, ou encore la RATP. Depuis, il collabore avec la Société Générale, Engie, Lonza et Datainfogreffe.
Depuis 2021, la société double sa croissance tous les ans et réalise un chiffre d’affaires de quelques millions d’euros. Avec son offre SaaS, elle compte plus particulièrement élargir sa clientèle, en cherchant à convaincre les startups et les PME.
Son offre SaaS est divisée en trois forfaits : Team, Corporate et Business, auxquels s’ajoute une version freemium.
Team est facturé 1 180 euros par utilisateur par mois et fournit 3 millions de crédits, trois déploiements, trois environnements spécifiques et 100 Go de stockage. À partir de cinq utilisateurs, Business (1 780 euros par utilisateur par mois) inclut 5,2 millions de crédits par mois, 5 déploiements, 5 environnements spécifiques et 500 Go d’espace de stockage. À partir de 11 et jusqu’à 22 utilisateurs, Corporate (1 980 euros par utilisateur par mois) inclut 6,6 millions de crédits, 8 déploiements, 8 environnements spécifiques et 1 To d’espace de stockage.
Historiquement, la startup a proposé ses outils sur site avant d’offrir une offre self-managed sur OVHcloud. Pour autant, la première itération de cette version SaaS sera déployée sur une région EMEA d’AWS.
Un petit écart à la doctrine souveraine… pour mieux revenir sur OVHcloud (?)
« Nous avons choisi AWS parce que c’est un fournisseur bien établi, entouré d’un écosystème riche et d’une large communauté », justifie Éric Chau, CTO et cofondateur de Datategy. « L’étendue des services managés d’AWS permet de simplifier la gestion d’un certain nombre de casse-têtes : sauvegarde, passage à l’échelle, etc. ».
Datategy renierait-il ses convictions au regard des notions de souveraineté ? Non, selon le CTO.
Eric ChauCofondateur et CTO, Datategy
« Une réflexion est déjà engagée pour lancer une offre SaaS sur OVHcloud. OVHcloud est notre fournisseur historique avec lequel nous avons un partenariat très fort. Nous avons rejoint son programme startup/scale-up. Nous avons envie de mettre en avant le savoir-faire français », tient à préciser Éric Chau.
« Le fait de travailler avec OVH, ça rassure beaucoup nos clients. L’ANSSI leur a attribué un niveau de certification de sécurité très élevé pour certaines instances », poursuit-il.
Par ailleurs, l’éditeur ne prévoit pas d’arrêter la distribution de sa plateforme sur site, en cloud privé ou en mode hybride.
« Ça ne remet pas du tout en cause notre mode de fonctionnement historique, mais nous nous sommes rendu compte que pour des petites et moyennes entreprises, pour des laboratoires, pour des universités, ou alors pour des personnes qui n’ont pas forcément de données sensibles, c’était beaucoup plus pertinent pour eux de leur proposer une offre SaaS », insiste-t-il.
IA explicable et de confiance : l’argument clé de Datategy
Pour l’heure, avec PapAI, Datategy mise sur l’apport de fonctionnalités de Data Engineering et de MLOps.
Il est possible de charger des données en local ou de se connecter à des bases de données SQL (PostgreSQL, MySQL, SQL Server, Oracle Snowflake) et NoSQL (MongoDB, Cassandra, ElasticSearch) ainsi qu’à des espaces de stockage objet (S3, Azure Blob Storage, Google Cloud Storage, MinIO), ou encore d’exploiter des fichiers JSON via des API.
Ensuite, à l’aide de son exploitation du moteur Apache Spark (ou des moteurs de bases de données en mode ELT), la plateforme permet de prétraiter, nettoyer, préparer les données à l’aide d’expressions SQL ou de scripts Python. Il est possible d’ajouter des extensions, correspondant à des étapes de transformation réutilisables.
La plateforme peut accueillir des modèles ML/DL externes ou être utilisée pour en entraîner à l’aide d’un système AutoML. Celui-ci aide à choisir le type de modèles de machine learning (régression linéaire, classification, clustering, TFS forecasting, etc.), de l’entraîner, de l’évaluer et de le déployer.
« Nous sommes très attendus sur les sujets d’IA explicable et de confiance », déclare Éric Chau.
Lors de l’entraînement et de l’inférence des modèles, papAI donne accès à plusieurs outils d’explicabilité, dont les valeurs SHAP (SHapley Additive exPlanations) et des modules d’explications contrefactuels.
« Nous proposons également des outils de simulation », complète le CTO. « Par exemple, plutôt que de fournir une prédiction statique, nous proposons une interface qui va permettre d’interagir avec le modèle prédictif, dans laquelle l’utilisateur va pouvoir jouer avec les paramètres d’entrée, augmenter certaines valeurs, afin d’évaluer les réactions du modèle ». Cette fonction peut être aussi au cœur d’une application métier.
Sur le papier, papAI ressemble à la plateforme de Dataiku. « Nous avons beaucoup été mis en concurrence avec DataRobot, qui est plutôt présent sur le segment de l’AutoML, mais finalement, notre concurrent principal, c’est Dataiku. Nous partageons beaucoup de points communs », reconnaît Éric Chau.
En revanche, le CTO estime que les fonctions d’IA explicable et de confiance, ainsi que l’origine des fonds de Datategy le distinguent de son concurrent (Arnaud Montebourg a rejoint son conseil d’administration en décembre dernier). Un argument de poids pour tenter de convaincre les sphères françaises de la défense et du renseignement.
Tout n’est pas non plus parfait. Le CTO considère que papAI rassemble l’essentiel des fonctionnalités clés liées à l’approche MLOps, mais entrevoit des axes d’amélioration. « Aujourd’hui, nous sommes capables d’industrialiser un modèle ML, c’est-à-dire de l’entraîner, de le packager, de le servir sous la forme d’un service Web interrogeable par des services tiers », indique-t-il. « Nous pouvons capter toutes les interactions vis-à-vis de ce modèle, les données qui lui sont soumises, les prédictions retournées et restituer ces informations dans un tableau de bord ».
Il s’agit de détecter si le modèle présente des déviations, si le service est sujet à des congestions, et dans quelle mesure le modèle est adapté aux demandes des utilisateurs. Ces données peuvent être réinjectées dans un projet pour réentraîner un algorithme depuis papAI ou depuis une plateforme tierce. PapAI permet également de conserver une piste d’audit des entraînements et des exécutions.
« Nous pensons que nous pouvons proposer des modèles de déploiement plus fins, par exemple, du shadow serving qui permet de tester des modèles en production afin d’en juger les performances », ajoute-t-il. Cette technique est appelée Shadow Mode chez Google.
Un autre volet d’intérêt pour Datategy est d’assurer la frugalité des modèles de machine learning et de deep learning.
« Les clients nous demandent à garantir la frugalité des modèles, non seulement lors de l’entraînement, mais aussi à l’inférence », avance Éric Chau.
Eric ChauCofondateur et CTO, Datategy
« Des collectivités nous sollicitent pour estimer et prédire la consommation des foyers de leur commune afin de recommander des écogestes aux habitants. Il ne faudrait pas que l’énergie consommée lors de l’entraînement atténue les effets par rapport à la finalité du modèle », illustre-t-il.
En 2024, une levée de fonds en préparation
Pour la suite, Datategy aura besoin de fonds. Après sa collecte de 2,5 millions d’euros en 2020, l’éditeur a réalisé une levée intermédiaire de deux millions d’euros à l’été 2023. Cette année, elle cherche à récolter 15 millions d’euros d’ici à la rentrée 2024. « Pour nous, l’objectif, c’est de passer à une autre échelle, d’aller chercher des clients à l’international. Du côté technique, j’ai besoin de talents concernant divers sujets, notamment l’IA générative », signale le CTO.
Car, en 2023, Datategy a été « très sollicité » pour répondre à des cas d’usage de traduction, de question-réponse sur un corpus documentaire, et plus largement de traitement du langage. En clair, ses clients cherchent à exploiter des grands modèles de langage.
« Comme tous nos copains de jeu dans l’écosystème, nous nous sommes mis à surfer sur la vague de l’IA générative », déclare Éric Chau.
Construire « des ponts entre IA prédictive et générative »
Pour Datategy, cela implique de concevoir un environnement permettant de s’interfacer avec les API d’inférence des modèles du marché, de les superviser, de s’intégrer avec les bases de données vectorielles, mais aussi de fine-tuner et de déployer des modèles « open weight » via HuggingFace sur le cloud ou sur site. Pour l’heure, la startup s’appuie sur les capacités d’extensions de sa plateforme et d’accueil de scripts Python afin de répondre à certains des besoins.
Eric ChauCofondateur et CTO, Datategy
De fait, la société provient du monde de l’IA prédictive. « Je suis convaincu que l’IA prédictive ne va pas disparaître, en tout cas pas tout de suite », insiste le CTO de Datategy. Beaucoup de travaux de recherche tendent à démontrer que les LLMs ont encore beaucoup de mal sur les aspects prédictifs et n’offrent pas des résultats dignes de confiance en la matière.
« Cette année, il sera intéressant pour nous de prendre en charge l’IA générative, mais surtout d’essayer de construire des ponts entre notre moteur d’IA prédictive et l’IA générative, par exemple pour expliquer des prédictions en langage naturel ou les croiser avec d’autres données d’une entreprise ».