olly - Fotolia

PapAI : Datategy lance sa plateforme d’automatisation de la data science

La société française Datategy s’est rapidement fait connaître pour sa plateforme d’analyse de flux de données en temps réel, principalement réservée au secteur du transport public. Elle étend son activité en lançant papAI, une plateforme de data science dans laquelle l’automatisation doit faciliter le travail des data scientists.

Fondée à Neuilly-sur-Seine en 2016, Datategy peut se targuer d’avoir fait mouche auprès d’acteurs comme Airbus, Engie, Keolis, TICE, Infogreffe et la Société Générale. Les deux fondateurs, Eric Chau et Mehdi Chouiten, ont tous deux une formation de data scientist.

Suite de l'article ci-dessous

Mehdi Chouiten – actuel PDG de l’entreprise – est un docteur en data science passé par le CNRS, où il s’est spécialisé dans les sujets autour de la ville intelligente.

« Depuis 2016, notre vision repose sur le fait que la data science est de moins en moins une problématique technique, mais de plus en plus un sujet qui impacte la stratégie des entreprises. Avec les données que nous récupérons, nous sommes capables de prédire des risques, d’optimiser des opérations de production, les opérations financières, la consommation énergétique, le ciblage des clients ou encore la tarification des produits », déclare Mehdi Chouiten.

La première solution de la startup lancée en 2017, OctoCity, a attiré une vingtaine de clients (principalement des grands comptes) et est déployée dans une centaine de municipalités dans le monde.

« Avec les ressources restreintes à notre disposition à l’époque, nous ne pouvions pas construire un produit qui traduisait la totalité de notre vision. Nous avons d’abord décidé de lancer un produit consacré au sujet de la mobilité : transport et stationnement. Cela nous a permis de restreindre le type de données à traiter, de visualisations à fournir et d’autres éléments de développement », explique le PDG de Datategy.

PapAI, une plateforme de data science automatisée

Datategy a notamment développé un module de prédiction couplé à une application utilisée par les agents sur le terrain pour lutter contre la fraude dans les transports en commun.

Maintenant qu’OctoCity a fait ses preuves, Datategy lance papAI, une plateforme de data science qui doit simplifier le travail des équipes de data science, de l’ingestion des données à la mise en production des algorithmes.

Datategy fournit des connecteurs JDBC vers les bases de données les plus courantes, des API, ou un moyen d’ingérer automatiquement des fichiers CSV ou Excel.

« PapAI permet non seulement de récupérer des types de données prédéfinis, mais également de détecter automatiquement le type d’informations à analyser : une date, une position géographique, une somme, etc. Dès l’importation de la donnée, papAI lui associe une sémantique », assure Mehdi Chouiten.

Cette capacité serait directement issue du travail effectué auprès des différents clients cités ci-dessus. Les cas d’usage rencontrés ont permis à la startup de développer plusieurs ontologies permettant de reconnaître les types de données accessibles dans les SI.

Elle doit également faciliter la data preparation. L’algorithme détecte les anomalies dans les colonnes, puis déclenche une alerte envoyée aux utilisateurs. Ces indications permettent aux data scientists de nettoyer les jeux de données des valeurs erronées ou Null. « La plateforme permet nativement de savoir quand il y a un problème avec des données, mais la décision de modifications plus ou moins automatisées est laissée à l’utilisateur », explique le PDG de Datategy.

PapAI propose par exemple des suggestions d’harmonisation des informations, par exemple pour des dates agrégées dans différents formats. « Nous proposons également de la visualisation dès la préparation de données. Si j’ai un échantillon de 50 000 personnes et par exemple, j’en ai 500 pour lesquelles je n’ai pas leur âge, je décide de remplacer par l’âge moyen. Je peux vérifier l’impact de cette modification sur mon jeu de données grâce à différents graphiques (histogrammes, courbes, diagrammes, etc.) », détaille Mehdi Chouiten.

Avant de passer à l’entraînement, papAI propose de choisir l’élément à prédire, de pondérer cette prédiction avec différents paramètres et ensuite de choisir une famille d’algorithmes disponible dans la plateforme. « Par exemple, l’on peut faire une régression, une classification ou encore du clustering », liste le PDG. La plateforme gère également les cas d’usage des réseaux de neurones.

Point important pour Datategy, papAI supporte les séries temporelles et leur analyse en temps réel. Il est possible de détecter automatiquement des patterns comme des saisonnalités, de prédire ces séries chronologiques, ou encore de combler des trous de données (out of order data). Les événements peuvent être reliés à des phénomènes externes, des informations contextuelles. « Nos concurrents proposent généralement des modules Time Series périphériques alors que cette capacité est tout à fait centrale dans bon nombre d’industries », estime le responsable.

Avec papAI, ce sont aux data scientists de décider quels modèles issus des différentes familles conviennent le mieux à leur cas d’usage. « Le casse-tête pour les data scientists, c’est de prototyper rapidement ces modèles. Si les librairies open source facilitent la tâche, quand vous codez vous-même, vous devez identifier les paramètres qui influent sur le résultat. C’est assez perturbant parce qu’il y a un côté artisanal de l’IA : il faut réaliser beaucoup de tests. Si vous n’avez pas une plateforme comme la nôtre, ce suivi est plus difficile et plus long », considère Mehdi Chouiten.

Cette capacité de supervision faciliterait l’« interprétabilité » des modèles. « Nous proposons une explication ligne par ligne. Nous avons développé un certain nombre d’algorithmes qui permettent d’analyser chaque famille d’algorithmes. La manière dont on interprète un arbre de décision n’est pas la même qu’un réseau de neurones, par exemple », indique le cofondateur de Datategy.

Datategy exploite également le framework open source de calcul distribué Apache Spark, tandis que « plusieurs mécanismes » doivent assurer au besoin la persistance des données et les paramètres des modèles, suivant les cas particuliers (sauvegarde, restauration, état). « Ainsi, le client peut choisir de maximiser les traitements ou de les rationaliser pour des raisons de coût ou de temps ».

Un modèle de déploiement pour les acteurs du secteur public

Contrairement à certains concurrents, Datategy propose avant tout de déployer sa plateforme de data science sur site. « Nous ne sommes pas fournisseurs de cloud, si un client souhaite embarquer la solution sur un cloud public, il peut le faire lui-même ou auprès d’un de nos partenaires. Cela peut être perçu comme une faiblesse par certains, c’est aussi une force pour cibler les institutions publiques et les municipalités qui doivent respecter des règles strictes », justifie Mehdi Chouiten.

Datategy est notamment partenaire d’Orange Business Service, qui propose papAI à ses clients avec un possible hébergement sur le cloud Orange. Il est également possible de la déployer sur OVHCloud.

La monétisation de papAI repose sur une licence annuelle suivant le nombre et le type d’utilisateurs (data scientist, data analyst, business analyst ou chief data officer). Plusieurs clients de Datategy ont déjà testé la solution. Cinq d’entre eux sont d’ores et déjà des clients payants.

La cour des grands

« On peut créer 50 projets sur la même plateforme. Même s’ils n’ont rien à avoir les uns avec les autres, le tout est gérable et notre architecture est capable de traiter de gros volumes de données. »
Mehdi ChouitenPDG, Datategy

Commercialement, Datategy veut verticaliser son approche pour mieux cibler des secteurs, dont l’industrie, le commerce, les télécoms, la banque ou encore la santé (tout en continuant à attirer les acteurs du transport). En ce sens, la startup qui emploie une trentaine de collaborateurs vient de recruter un directeur commercial. En janvier 2020, Datategy a levé 2,5 millions d’euros en séries A.

Finalement, en élargissant son offre, la startup se retrouve face à des acteurs comme Dataiku, DataRobot ou, dans une certaine mesure, Alteryx.

« Le marché des plateformes de data science est déjà “très peuplé”. Notre positionnement, c’est de permettre aux organisations de réaliser des projets IA sans restriction de départ. C’est-à-dire que l’on peut créer 50 projets sur la même plateforme. Même s’ils n’ont rien à avoir les uns avec les autres, le tout est gérable et notre architecture est capable de traiter de gros volumes de données », vante le PDG de Datategy.

Pour approfondir sur Intelligence Artificielle et Data Science

Close