Olivier Le Moal - stock.adobe.co
Dataiku étend son écosystème LLM Mesh
L’éditeur d’origine française développe son écosystème LLM Mesh afin d’exploiter davantage de grands modèles de langage et d’outils liés à l’IA générative. Il y superpose une couche de gouvernance qu’il veut la plus exhaustive possible.
Le 13 août, Dataiku a annoncé l’extension de son LLM Mesh, un dispositif qu’il avait dévoilé en septembre 2023 et présenté dès le mois de novembre de la même année à ses clients français.
Inclus dans sa plateforme DSS, LLM Mesh était décrit comme une « colonne vertébrale commune » des applications d’IA générative. Un moyen de s’appuyer sur les API des différents fournisseurs de modèles pour en changer au besoin.
LLM Mesh était alors en préversion publique et les intégrations avec les LLM tiers étaient naissantes ou limitées.
Hier, Dataiku assure avoir sécurisé des partenariats avec une quinzaine de fournisseurs de LLM et de services liés à l’IA générative. Il liste AWS, Databricks, Google Cloud, Snowflake, Azure, OpenAI, Hugging Face, Pinecone, Chroma DB, Mistral AI ou encore Cohere. Du fait du partenariat avec Hugging Face et ses 829 000 checkpoints de modèles d’IA et ML, Dataiku peut virtuellement orchestrer « des milliers de LLM ».
DSS se connecte non seulement aux modèles exposés par API par ces acteurs (dont GPT-4o, et Claude 3.5 Sonnet), mais également aux outils tiers. Ceux-ci sont issus des plateformes telles qu’Amazon Bedrock, Google Vertex AI, Snowflake Snowpark Container Services ou bien Azure AI Studio. Par ailleurs, l’éditeur offre un moyen d’exécuter des LLM en provenance d’Hugging Face localement ou sur l’infrastructure de son choix, à condition de disposer des GPU Nvidia requis et de savoir maîtriser Kubernetes. Les usagers peuvent tester ces modèles à travers un « prompt studio ».
Dataiku propose par ailleurs des « recettes » pour résumer ou classer des textes, déployer des premiers systèmes RAG (Retrieval Augmented Generation), des assistants de programmation. En outre, il a dans sa besace des solutions comme Dataiku Answers, un front-end prébâti pour une application de type chatbot.
Il faut ajouter à cela deux fonctions spécifiques à Dataiku : AI Prepare et AI Explain. AI Prepare permet de décrire une transformation de données en langage naturel et d’obtenir les étapes de préparation. AI Explain fait de même pour les flux Dataiku (Flows). Ces flows sont généralement consultés par des métiers depuis une interface low-code/no-code avant d’exécuter une transformation.
Sans surprise, Dataiku propose des moyens de fine-tuner certains modèles si nécessaire.
Ces fonctionnalités ont été renforcées à partir de la fin du mois de juin, après l’introduction de la version 13 de DSS. DSS 13 a été mis au cours du mois de juillet et du mois d’août 2024. Les ajouts portent essentiellement sur une meilleure prise en charge des LLM et leurs environnements spécifiques.
Une gouvernance « multi-LLM »
« Tout cela correspond à ce que les clients nous disent rechercher », indique Arun Chandrasekaran, analyste chez Gartner.
Cependant, Dataiku se différencie. Tout en proposant des modèles provenant de plusieurs fournisseurs, il offre des outils d’ingénierie tels que la couche de gouvernance, permettant aux clients d’automatiser, personnaliser et déployer les modèles en toute sécurité, ajoute-t-il.
Cette couche de gouvernance inclut une piste d’audit et un outil de suivi des coûts et de mise en cache des LLM. L’éditeur intègre également un système de détection et d’anonymisation des informations personnelles identifiables (basée sur la librairie open source Presidio de Microsoft). La gestion des accès et des rôles s’orchestre à travers le système RBAC de la plateforme.
Dataiku vient d’ajouter un « registre LLM ». Ce module incorporé dans Dataiku Govern permet de définir si oui ou non un LLM peut être utilisé pour un cas d’usage spécifique. Cette autorisation est établie en fonction de la politique de la société et des lois en vigueur, notamment le RGPD et l’AI Act.
Dataiku est-il trop en avance ?
L’approche multi-LLM de Dataiku vise à s’assurer que les entreprises ne se retrouvent pas pieds et poings liés à un seul concepteur de LLM, évoque David Nicholson, analyste chez Futurum Group.
En réalité, Dataiku s’est très tôt inscrit dans une tendance mise en avant par les fournisseurs de cloud à travers leurs plateformes d’IA respectives. Ne sachant quels modèles seraient les plus efficaces et conscients que ces charges de travail rapporteraient gros, AWS, GCP et Azure ont finalement décidé d’accueillir le plus de LLM possibles. Or, ces fournisseurs placent stratégiquement leurs API, leurs outils, leurs méthodologies.
Seulement, tout comme des acteurs comme Snowflake et Databricks, Dataiku offre lui-même un moyen de ne pas dépendre des cloudistes.
Pour autant, il n’y aurait pas de demande pressante pour ce type de plateformes multi-LLM, selon David Nicholson. Dataiku semble donc se projeter en ayant l’avènement du multicloud pour référence. « Dataiku va attendre que les entreprises sachent comment exploiter l’IA générative dans leur contexte respectif, puis les encouragera à prendre des précautions. Dataiku leur dira : “avant de vous lancer, veillez à ne pas dépendre des outils d’un seul éditeur” ».
Le défi pour Dataiku est qu’en ajoutant de nouvelles fonctionnalités telles que la gouvernance dans le LLM Mesh, il devra également suivre les évolutions du marché LLM, considère l’analyste de Futurum Group. « Parfois, lorsque vous greffez une couche intermédiaire, vous augmentez la complexité, mais vous pourriez compromettre les performances », soupèse-t-il.
Certains des acteurs cités précédemment proposent des fonctions de suivi des coûts et de gouvernance des LLM, tandis que les fournisseurs des grands modèles de langage tentent, pour la plupart, d’endiguer les risques.