Kiattisak - stock.adobe.com

Exploration de données : Huwise (ex-Opendatasoft) dévoile son agent IA Huwy

Huwise, ex-Opendatasoft, poursuit ses projets d’infusion de fonction d’IA générative et agentique dans sa place de marché de données. Avec son agent IA conversationnel Huwy, il cible d’abord les métiers.

Huwy doit aider les usagers métiers à explorer les métadonnées et les jeux de données disponibles sur sa place de marché. Propulsé par GPT-4.1, GPT-4o d’OpenAI ou Mistral Large 3 de Mistral AI, celui-ci est capable de répondre à des questions métiers. Il peut par exemple identifier le CSM responsable d’un compte client ou encore indique le volume d’entreprises d’un secteur spécifique par région.

Bref, il s’agit de rendre les données consommables en langage naturel. L’agent IA présente aux utilisateurs les liens vers les jeux de données. Il doit contextualiser les réponses selon s’il est appelé depuis la page d’accueil, le catalogue ou la fiche d’un produit de données.

Sur le papier, Huwy est un énième agent conversationnel couplé à un serveur MCP. David Thoumas, directeur technique et cofondateur de Huwise, explique ce développement par la volonté de « faciliter la vie des utilisateurs existants ».

Les agents IA « front-end » concentrent les défis techniques

Huwy aurait pu commencer par cibler les administrateurs de la plateforme et les équipes de gestion de données. « Nous préférons traiter les problèmes les plus compliqués d’abord », affirme David Thoumas auprès du MagIT. « Nous voulions commencer par quelque chose de très visible ».

Certains clients d’Huwise se sont emparés de son serveur MCP pour développer leur propre agent IA, ou l’intégrer à Microsoft Copilot. Ce n’est pas à la portée de toutes les entreprises.

Le développement d’un agent IA qui répond à la majorité des usagers d’un service demeure complexe. Outre les problématiques d’adoption, cela pose des questions de sécurité, de détournement des usages, ou encore de temps d’exécution. D’autant plus que Huwy manipule des données publiques ou privées et qu’il faut encadrer leur accès selon le rôle de l’utilisateur et ses permissions.

Ces contraintes justifient, entre autres, le choix des grands modèles de langage.

« Pour raisonner et manipuler des données, il faut que le modèle d’IA ait une fenêtre de contexte assez large », assure David Thoumas.

La fenêtre de contexte est à la fois une sorte de mémoire temporaire pour un LLM et l’élément qui détermine son « temps de parole » ou sa capacité de traitement par session.

Mais au lieu de laisser le LLM exécuter les requêtes SQL – ce qui pourrait retarder la production d’une réponse – c’est le moteur sous-jacent de la plateforme qui fait l’essentiel du travail. « Nous ne demandons finalement pas grand-chose au LLM. Nous lui ordonnons de formuler une requête qui va utiliser les capacités d’un serveur MCP derrière lequel se cachent nos API pour répondre à la question », déclare David Thoumas. « Nous n’exposons pas une base de données, mais un moteur d’API qui suit le paradigme SQL afin de filtrer des résultats et effectuer des agrégations ».

Le serveur MCP donne l’accès à l’exploration de la documentation, à la recherche de jeux de données et de métadonnées et aux enregistrements spécifiques. Cela permet à Huwy de jongler avec des jeux de données massifs. L’une des démonstrations effectuées par David Thoumas auprès du MagIT portait sur la base Sirene des entreprises et de leurs établissements (SIREN, SIRET). Elle contient plus de 40 millions d’enregistrements. Ce qui n’empêche pas l’agent IA de répondre en moins de deux secondes.

Cette capacité ne se limite pas aux jeux de données stockés sur la marketplace. Elle s’applique également aux actifs virtualisés depuis Snowflake et Databricks. Huwise peut par ailleurs suggérer des data sets pertinents si la question est vague ou nécessite la combinaison de plusieurs produits de données.

Huwy met son serveur MCP au centre de son dispositif

L’ex-Opendatasoft s’est fait connaître pour l’exposition de jeux de données publics. Mais son changement de nom souligne son intérêt pour propulser des places de marché de données internes aux entreprises. Ce qui réclame un point de vigilance supplémentaire en matière de sécurité. « En attendant que l’implémentation du protocole Oauth dans MCP soit “sèche”, nous avons mis en place un mécanisme reposant sur la transmission d’un header HTML contenant les URL du modèle de langage, du portail et sa clé API », indique le directeur technique. Les demandes des clients et des partenaires dicteront l’adoption du protocole d’identification instauré par la communauté derrière MCP.

Le fait que le serveur MCP appelle une API qui n’expose qu’une présélection de jeux de données limite de toute manière les risques de failles, selon David Thoumas. « Seuls les éléments visibles par l’utilisateur final sont exposés aux systèmes. Le risque majeur, qui n’est pas inhérent aux agents IA, c’est la compromission de comptes, surtout ceux à privilège. Nous nous sommes assurés que le protocole de transfert d’identité est suffisamment robuste pour limiter ce type d’attaque ».

Ensuite, le system prompt de l’agent IA contient plusieurs garde-fous, notamment l’obligation d’appeler le serveur MCP pour répondre aux questions. De ce fait, les demandes qui diffèrent du processus dicté au LLM résultent généralement sur une fin de non-recevoir. « Nous avons aussi un moyen de détecter les “bavardages” pour éviter de solliciter les plus grands LLM et le serveur MCP », ajoute David Thoumas. Plusieurs garde-fous seront mis à disposition des clients afin d’éviter le dérapage. D’autant que l’éditeur aimerait que Huwy anime des portails de données du secteur public.

Plus tard, il permettra d’accéder à l’API des outils de visualisation de données de Huwise. « Nous avions déjà expérimenté ce cas d’usage en 2023-2024, ce qui nous a fait développer des choses assez sophistiquées pour des résultats qui n’étaient pas extraordinaires. Nous remettrons ce sujet à l’ordre du jour », promet David Thoumas. Depuis, les LLM ont progressé dans le suivi d’instruction et des outils permettent de leur exposer des librairies de visualisation de données.

En outre, l’éditeur souhaite faciliter l’export des données. « Nous demanderons à l’agent IA d’exposer le lien permettant de télécharger les résultats des requêtes et les jeux de données au format CSV. Nos API savent déjà le faire », indique le directeur technique. « Cela économise beaucoup de tokens, mais limite les possibilités. Aujourd’hui, nous ne générons pas de PDF et d’autres documents. Cela va sans doute nous inciter à ajouter des formats d’export ».

Des agents IA spécialisés et des assistants pour les administrateurs

Le tout servira à spécialiser des agents IA d’exploration par cas d’usage métier, par exemple pour accélérer le lancement de produits de données.

Pour l’instant, les administrateurs peuvent obtenir un suivi des appels API, des actions des utilisateurs à partir d’Huwy et constater des volumes de données consommées par ce « canal ». Plus tard, ils auront leurs propres agents IA et des fonctionnalités d’IA génératives pour fluidifier l’administration des portails, analyser les statistiques d’usage des produits de données et en faire des descriptions synthétiques.

« Cela exige aussi la remontée d’un plus grand nombre de données utiles et exploitables concernant les usages de la plateforme », souligne David Thoumas.

Enfin, Huwise entend favoriser l’intégration d’Huwy et des agents IA de ses clients dans les environnements de travail des métiers. L’éditeur envisage de fournir un schéma d’implémentation dans Slack et Microsoft Teams.

Le serveur MCP d’Huwise est d’ores et déjà disponible à travers une extension payante. Huwy sera déployé en 2026.

Pour approfondir sur IA appliquée, GenAI, IA infusée