IA générative : Snowflake met les bouchées doubles

Lors du Data Cloud Summit, l’éditeur a largement mis en avant ses capacités d’IA générative et se retrouve, tout du moins sur le papier, coude à coude avec son concurrent Databricks. Reste à convaincre les clients de déployer des projets à l’échelle.

Outre Universal Search, intégré dans la couche de gouvernance Horizon, l’éditeur a annoncé la disponibilité générale « prochaine » de Document AI et de Snowflake Copilot, ainsi qu’un lot de services d’IA générative en préversion publique ou privée.

Snowflake Copilot et Document AI, des produits d’appel

Document AI est accessible pour les clients de Snowfake qui déploient des instances sur les régions AWS et Microsoft Azure prises en charge par l’éditeur.

Document AI est une application d’extraction de données depuis des documents, typiquement du texte, des logos, des signatures et des coches.

Elle s’appuie sur le Small Language Model (SLM) propriétaire Arctic-TILT. Ce SLM de moins d’un milliard de paramètres peut directement effectuer des extractions « zero shot », c’est-à-dire donner des résultats après une seule exécution, mais il est possible de le fine-tuner pour des documents plus spécifiques à l’entreprise.

L’éditeur recommande d’activer la prise en charge des données non structurées et les pipelines de données associés afin de pouvoir traiter ces documents. Le mieux serait, selon Snowflake, de lancer un warehouse séparé, par exemple de taille X Small, pour inférer le modèle.

Document AI prend en charge 11 formats, dont PDF, PNG, JPEG, Docx ou encore HTML.

Snowflake Copilot, déjà disponible sur les régions AWS US-East 1, US West 2 et EU Central 1, est un assistant propulsé par un LLM consacré à l’exploration de données et la génération de requêtes SQL. Il permet d’expliquer en langage naturel (en anglais seulement) la structure d’un jeu de données, créer des requêtes SQL correspondant à la demande d’un utilisateur, tester une requête soumise par ce dernier, ou encore répondre à des questions sur la documentation de Snowflake.

Le modèle sous-jacent est affiné en fonction des retours des utilisateurs soumis par les utilisateurs à l’éditeur, par un simple système de pouce vers le haut ou vers le bas. Comme avec ChatGPT, il est possible d’ajouter des instructions spécifiques devant guider le LLM dans ses réponses.

Snowflake Copilot n’a pas directement accès aux données des clients. Il ne peut pas exécuter des requêtes interbase de données ou interschéma, mais il est possible de l’utiliser avec des vues qui projettent des jointures.

Lors de la conférence, les porte-parole de l’éditeur ont assuré que Copilot est performant, mais sa documentation précise que les suggestions de code SQL peuvent être invalides et qu’il faut attendre trois à quatre heures afin qu’il puisse reconnaître les bases de données, schémas et tables nouvellement créés. Enfin, une instruction Snowflake Copilot est limitée à 2 000 caractères et la réponse ne couvre que les dix premières tables et 10 premières colonnes du jeu de données soumis.

Cortex Search, un RAG as a Service

Dans le catalogue Cortex AI, l’éditeur mise sur Cortex Search, qui peut être décrit comme une solution « RAG as a Service » ou d’Enterprise Search, en anglais uniquement.

Le système mis à l’origine en place par Neeva combine la recherche de représentations vectorielles de mots et par mot clé.

Le service se déclenche à partir d’une requête SQL. Il est recommandé de tokeniser les documents puis de stocker 512 tokens (385 mots en anglais) par colonne de recherche. Au-delà, Cortex Search ne les utilise pas. Le service se charge de générer les vecteurs et de maintenir les index en continu.

La limite n’est pas exprimée en nombre de documents ou en volume de tokens, mais en million de lignes. 

« Le résultat de la requête matérialisée dans le service de recherche doit avoir une taille inférieure à 10 millions de lignes afin de maintenir des performances de service optimales. Si le résultat matérialisé de votre requête comporte plus de 10 millions de lignes, la requête de création sera rejetée », précise Snowflake.

Pour obtenir une réponse, il faut connecter ce service au service LLM functions, qui appelle les modèles d’embedding et les LLM utilisés pour générer les réponses aux questions.

Actuellement, Snowflake propose dix modèles de langage, dont Mixtral 8X7B, Mistral Large, Gemma 7B, Arctic, Reka ou encore Llama 3-70B. Il offre trois modèles d’embeddings, en sus de checkpoints dédiés de Snowflake à des tâches spécifiques (extraction d’entités nommées, d’analyse de sentiment, de résumé et de traduction).

Par-dessus ces deux services managés, l’éditeur propose Cortex Playground, une interface associée à Snowflake AI & ML Studio, un service en préversion privée.

Fine-tuning léger

C’est la combinaison des briques Cortex Search, LLM Functions et Playground qui donnent vie à la plupart des démonstrations effectuées par Snowflake cette semaine.

Par ailleurs, Snowflake a présenté Cortex Analyst, prochainement en préversion publique. Il s’agit d’un outil propulsé par les modèles LLama 3 et Mistral Large qui « permet aux développeurs de faire apparaître des informations pour les métiers, grâce à un service qui transforme le texte en réponse à partir de tables analytiques dans Snowflake », avance l’éditeur qui précise que les résultats dépendront du modèle sémantique fourni par les développeurs.

En outre, il sera possible d’affiner les modèles disponibles depuis LLM Functions à l’aide du service Cortex Fine Tuning. Accessible en préversion publique, il permet d’effectuer plus précisément un fine tuning léger des modèles de Meta et de Mistral AI (Mistral 7B, Mixtral 8x7B, Llama 3 8B, Llama 3 70B). Il s’agit plus spécifiquement d’appliquer la méthode PEFT (Paramater Efficient Fine-Tuning) qui permet de faire varier un petit nombre de poids des LLM concernés à partir d’une centaine de documents (Snowflake ne recommande pas d’utiliser des milliers d’exemples).

Enfin, Cortex Guard est simplement une version managée de LLama Guard, un modèle développé par Meta pour filtrer le contenu entrant et sortant des applications d’IA générative.

Conscient des problématiques financières, Snowflake détaille les traitements qui peuvent engendrer les coûts les plus importants, du stockage des données, en passant par l’indexation, jusqu’à l’appel des différents modèles de langage.

Selon les analystes, Snowflake rattrape Databricks

« Il s’agit d’un vaste ensemble d’annonces qui démontrent la forte progression de Snowflake dans le domaine de l’IA », avance Kevin Petrie, analyste chez BARC US, auprès de SearchDatamanagement, une publication sœur du MagIT.

Pour autant, l’éditeur doit se méfier de son concurrent principal Databricks qui, jusqu’alors, a pris de l’avance dans ce domaine.

« Snowflake et Databricks continuent d’entrer en collision l’un avec l’autre. Bien que de nombreuses offres annoncées par Snowflake ne soient pas encore disponibles [en production], elles témoignent d’un haut niveau d’engagement dans le segment de l’IA et de la GenAI ».

Au regard de cette compétition qui inclut les fournisseurs, « il sera important pour l’entreprise [Snowflake] d’assurer la disponibilité générale de ces nouvelles fonctionnalités dès que possible et d’investir dans d’autres caractéristiques et fonctionnalités différenciatrices », prévient Matt Aslett, analyste chez Ventana Research (ISG).

L’IA générative, encore insaisissable pour les entreprises

Kevin Petrie, lui, prévient que toutes les entreprises ne sont pas prêtes à adopter ces solutions à large échelle, ne serait-ce que par peur des hallucinations. Dès lors, l’IA générative ne doit pas devenir le seul secteur d’investissement pour Snowflake.

« C’est une technologie qui a beaucoup de promesses, mais il faut qu’elle s’adapte aux cas d’usage des entreprises, qu’elle puisse intégrer facilement dans les processus existants et qu’elle ne soit pas seulement ce joli objet sur le côté ».
David LafranceDirecteur données et analytiques, Harnois Énergies.

« Snowflake prétend démocratiser l’IA en réduisant les compétences de programmation nécessaires pour la personnaliser et la déployer », énonce-t-il. « C’est une proposition risquée. Les LLM peuvent générer des résultats inexacts qui nuisent à l’entreprise. Pour réduire les risques, vous avez besoin d’experts en IA afin de diriger ces déploiements. Certains éléments indiquent que les entreprises surmontent ces risques, mais pas suffisamment pour les adopter de manière générale ».

Un client comme David Lafrance, directeur données et analytiques chez Harnois Énergies, un distributeur d’énergies depuis 1958 et propriétaire (entre autres) d’une chaîne de stations-service au Québec, perçoit l’IA générative comme « un cochon graisseux ». L’expression québécoise fait référence à une course désormais controversée consistant à tenter d’attraper un cochon enduit de graisse et de le déposer dans un enclos. Recouvert de gras et de boue, remuant, l’animal est difficile à attraper.

« C’est une technologie qui a beaucoup de promesses, mais il faut qu’elle s’adapte aux cas d’usage des entreprises, qu’elle puisse intégrer facilement dans les processus existants et qu’elle ne soit pas seulement ce joli objet sur le côté », pense-t-il en son nom. Une démarche naissante chez le groupe familial qui emploie 1 700 personnes.

Pour approfondir sur IA appliquée, GenAI, IA infusée

Close