NicoElNino - Fotolia

YZR mise sur le NLP pour normaliser les données textuelles

En s’attaquant à « un petit » problème de normalisation de données textuelles, la jeune pousse française YZR espère homogénéiser les informations enregistrées dans les MDM, les PIM et autres catalogues produit des entreprises.

YZR (à prononcer wiser) est une startup parisienne spécialisée dans l’automatisation de la normalisation de données, fondée en 2019 par Sébastien Garcin. Auparavant, l’entrepreneur qui dirige une équipe d’une quinzaine de personnes était Chief data officer chez L’Oréal. Et comme beaucoup de ses homologues CDO, il devait faire face à des problèmes de qualité de données.

« J’étais confronté à la multiplicité des sources de données non gouvernées. Les fournisseurs de données de panels sont nombreux, ils ont chacun leur convention de nommage ou n’en ont pas, ce qui entraîne des variations importantes. Or mes projets de data science impliquaient des historiques conséquents de données de ventes "produits" », relate-t-il.

Ses équipes devaient ressaisir les données à la main afin de les homogénéiser, une tâche rébarbative et complexe. « Par exemple, pour désigner un démaquillant pour cil waterproof, je pouvais trouver en référence “démaquillant”, “démaq”, “dmqln” et pour waterproof, le nommage pouvait être “waterproof”, “wp”, “wtprf”, etc. », affirme le dirigeant. « Dès qu’il y a un humain dans une chaîne de production de donnée, l’on génère de l’hétérogénéité ».

À l’époque, Sébastien Garcin n’a pas déniché de solution à son problème sur le marché du logiciel. « Je n’ai trouvé personne qui agit sur la valeur de la donnée. Il y a des éditeurs qui interviennent sur la structure de la donnée, en gros sur la cellule ou la colonne, mais personne ne se penche sur ce qu’il y a à l’intérieur de la cellule », déplore-t-il.

C’est de ce constat que le CEO et le cofondateur YZR Jean-Philippe Poisson ont développé un outil de préparation automatique des données textuelles. « Nous avons reniflé sur une faisabilité technologique et nous nous sommes lancés dans l’aventure. Nous nous concentrions au départ sur la donnée produit, mais nous nous sommes rendu compte qu’il n’y a pas une seule entreprise au monde qui rencontre un problème d’hétérogénéité de données textuelles », explique Sébastien Garcin.

L’analyse sémantique au service de la normalisation

YZR veut proposer une technologie « générique » capable de résoudre ce problème de convention de nommage, « quel que soit le contexte ». « En revanche, on ne fait que cela : nous réécrivons les données textuelles de manière à respecter un standard », précise le CEO.

La startup prévient tout de même qu’il faut définir ce contexte. Ce contexte peut correspondre à une catégorie de produits dans laquelle l’on retrouve plusieurs références et plusieurs conventions de nommage. La technologie en question doit détecter automatiquement les erreurs, les abréviations et les différentes formes avant d’appliquer une correction automatique.

De plus, l’outil développé par la startup doit extraire les « attributs significatifs » présents dans les données textuelles et permet de créer des « labels » ou des étiquettes. Cela peut servir à automatiser la classification après la normalisation ou préparer des traitements analytiques.

YZR s’appuie sans surprise sur le NLP, notamment des techniques sur d’extraction et la reconnaissance d’entités nommées. « Nous avons beaucoup travaillé notre technologie NLP de façon à ce que notre algorithme puisse être entraîné et obtenir un haut niveau de précision sur de petits volumes de données », assure Sébastien Garcin. « En moyenne, nous détectons 85 % des variantes d’un même mot. Les informations qui ne sont pas détectées par l’algorithme sont confiées à des experts métiers », ajoute-t-il.

Pour ce faire, l’outil comprend un volet collaboratif prévu pour interroger un spécialiste métier, par exemple un responsable produit, afin de préciser une abréviation ou une convention de nommage et l’enregistrer dans une ontologie. Une fois cela fait, l’algorithme serait entraîné sur cette nouvelle variable afin de corriger automatiquement l’appellation.  

Un outil métier avant tout

YZR a d’abord proposé à ses clients une API afin de l’appeler en amont d’un PIM ou d’un MDM. Ce n’est pas l’usage privilégié pour le moment. « Nos clients sont avant tout issus du métier. Quand nous évoquons notre API, finalement ça les embarrasse plus qu’autre chose parce qu’ils ne savent pas trop qu’en faire. Désormais, nous avons une API et une plateforme qui permet de charger des fichiers et réaliser les traitements de normalisation en batch avant de les récupérer », explique Sébastien Garcin.

La jeune pousse ne réinvente pas la roue, elle automatise un processus impliquant un traitement manuel, répétitif, donc prompt aux erreurs. « Les clients font déjà ce travail, mais ils le font manuellement sur Excel et de manière très répétitive », déclare le CEO.

« Les entreprises se rendent compte de ce problème de manque de qualité de données quand elles adoptent un PIM, quand elles migrent vers le cloud ou quand elles se lancent dans des projets de data science », liste-t-il.

L’outil de YZR est déjà en place chez Monoprix et Clear Channel, entre autres. « Chez Monoprix, une catégorie comprend approximativement 500 produits. Une normalisation demande environ une semaine de travail à un opérateur. Avec notre outil, cela requiert une demi-journée. Si le gros du travail de normalisation a déjà été appliqué, un responsable prendra 10 minutes pour mettre à jour sa catégorie », vante Sébastien Garcin. « Plus ça va, moins il y a d’intervention humaine ».

Il faut tout de même former le personnel à la prise en main de l’outil. « C’est la partie la plus longue », reconnaît le dirigeant. « Une fois cela fait, cela demande quelques heures de traitement par semaine », promet-il.

La startup voit bien sa technologie intégrer les outils de transformation de données plus classiques. « À terme, notre destin est d’être intégrés dans les outils de type ETL », considère le dirigeant.

Par cette formulation, le dirigeant de YZR fait le souhait d’une utilisation plus intensive de son outil. « Nos clients ont des flux permanents. Un Monoprix renouvelle un tiers de son catalogue tous les ans, un assureur traite des nouvelles factures liées aux accidents tous les jours », constate-t-il.

Pour autant, il ne s’agit pas de basculer sur des traitements en temps réel. « Les clients ne le réclament pas encore. C’est un sujet que nous travaillerons après avoir validé notre série A. Notre R&D se concentre sur la précision de notre algorithme et l’automatisation de la normalisation ».

Par ailleurs, il n’est pas question de traiter des données sensibles. « Nous ne manipulons aucune donnée chiffrée, nominative ou sensible. Nous nous concentrons sur les descriptifs de contrats, les contenus de factures, des catalogues produits, etc. Cela empêche les problèmes de fuite de données, un simple FTP suffit », s’avance Sébastien Garcin.

« Petit truc », grandes ambitions

YZR vise les acteurs de la distribution, les industriels, les assureurs, ou encore les fournisseurs de marketplace. « Il n’y a pas véritablement de limites concernant les verticaux, du moment que les clients veulent exploiter des données textuelles. Par exemple, nous traitons des comptes rendus de SAV ou encore des diagnostics de cliniques vétérinaires ».

« Nous faisons un petit truc, nous réécrivons des mots. Mais ce petit truc a un impact stratégique conséquent, car cela permet de débloquer tout un ensemble de projets. Vous pouvez initier tous les projets de data science que vous voulez, si la donnée n’est pas normalisée, vous n’y arriverez pas », tranche-t-il.

Pour autant, l’outil de YZR est davantage utilisé pour permettre d’administrer davantage de catégories de produits, de gérer des assortiments, des mécanismes de montée en gamme, de renouvellement de produits ou encore de fusion de catalogue produit. Appliquée aux factures, la technologie peut servir à détecter la fraude.

Au moment de valider sa levée de fonds en seed de 2 millions d’euros en janvier 2021 (auprès de responsables de Blablacar, Talend, Critéo, notamment), les investisseurs souhaitaient savoir si YZR s’attaquerait au problème de la qualité des données dans son ensemble. Pour l’instant, la jeune pousse préfère se concentrer sur cette standardisation textuelle. « C’est un petit problème, mais qui n’est pas si simple à résoudre et nous n’avons pas fini d’en faire le tour », estime le CEO.

YZR entend lancer sa campagne de levée de fonds en série A au mois de novembre prochain.

Pour approfondir sur Intelligence Artificielle et Data Science

Close