stokkete - stock.adobe.com

Google veut « fonder une famille » d’Agents IA dédiée à la gestion de données

Avec ses agents IA infusés dans BigQuery et en bordure de sa plateforme, Google Cloud veut simplifier les tâches de différents métiers responsables de la gestion de données. La promesse est belle, mais ces systèmes semblent encore fonctionner en silos. Le fournisseur promet d’y remédier.

Lors de sa conférence Next 25, GCP a une nouvelle fois mis l’accent sur l’infusion de l’IA générative au sein de son datawarehouse.

 Des « milliers » de clients utiliseraient Gemini infusé au sein de BigQuery. Gemini AI Code Assist serait l’outil le plus populaire. « Le taux d’acceptation du code SQL et Python généré par l’outil est supérieur à 60 % », assure Abhishek Kashyap, directeur de la gestion produit BigQuery chez Google Cloud, lors d’une session de Next 25 consacrée aux nouveautés de la plateforme.

« Nous constatons une forte demande d’agents IA dédiés à la gestion des données », affirme Kevin Petrie, analyste chez BARC US, auprès de SearchDataManagement, une publication sœur du MagIT. « Google perçoit clairement une demande similaire parmi les utilisateurs de BigQuery ». Désormais, les fonctionnalités de génération, de complétion et d’explication de code SQL sont incluses dans l’édition BigQuery Enterprise Plus et Gemini Code Assist Enterprise (45 dollars par utilisateur par mois, avec un engagement de 12 mois). La génération et la complétion de code Python également. Tout comme la préparation et la conception de canevas de données assistée par l’IA. Les recommandations sur le partitionnement et le regroupement, ainsi que sur les vues matérialisées, ne sont accessibles qu’avec l’édition Enterprise Plus.

Des agents pour tous les métiers de la gestion de données

Pour autant, l’intégration de Gemini dans BigQuery semble partielle.

Oui, l’outil d’assistance à la préparation de données dans BigQuery Studio est entré en disponibilité générale. « Il s’appuie sur un modèle Gemini pour trouver des problèmes dans des fichiers de données brutes, par exemple une inadéquation de schéma, et il génère du code SQL pour que vous puissiez réparer ces erreurs », décrit Abhishek Kashyap. Ensuite, à l’usager de modifier le code au besoin et d’exécuter le pipeline correspondant. En revanche, en préversion, Code Assist doit faciliter la conception de DataFrames dans BigQuery.

En revanche, d’autres fonctionnalités clés sont en dehors du cadre de la plateforme analytique.

Par exemple, Gemini est intégré au sein des services de migration vers BigQuery. Le service prend en charge la conversion de requêtes SQL des entrepôts de données tiers vers le SQL utilisé par GCP. « Cette fonctionnalité est accessible à travers une interface conversationnelle ou via une API batch. Les partenaires peuvent également l’intégrer dans leurs outils », annonce le directeur de la gestion produit.

En disponibilité générale, Data Science Agent est intégré à Google Colab, un environnement managé pour exécuter des notebooks Jupyter. Il doit aider les data scientists à automatiser le choix des paramètres, à explorer des données, ou encore à sélectionner le type de modèle en fonction des données en entrée. Avec un prompt en entrée, il génère du code et les commentaires correspondants. Les premiers utilisateurs notent que l’outil n’est pas parfait et qu’il vaut mieux limiter son usage aux tâches de nettoyage et d’analyse les plus simples. Les instructions doivent également être très claires, notamment pour gérer les champs que l’agent peut manipuler.

Dans Looker Studio Pro, Conversational Analytics est en préversion. Il s’adresse plus particulièrement aux business analysts et aux métiers afin d’interroger en langage naturel des données présentes dans un espace Looker – dont les fichiers CSV importés –, BigQuery et Google Sheets. Comme avec Tableau Pulse, les questions sont automatiquement converties en requêtes SQL. Un onglet « Insights » permet d’obtenir une interprétation des données ou des visuels affichés par Looker. Pour générer des diagrammes et des graphiques, Conversational Analytics s’appuie sur Vega-Lite, une librairie permettant de créer des visualisations à l’aide d’une syntaxe JSON. Ce framework est utilisé par Microsoft, Databricks, Tableau ou encore le CERN. Les graphiques en courbes, en aires, à barres, en nuage de points et en secteurs sont tous pris en charge par l’outil. La compatibilité avec les cartes, les infobulles et Maps est partielle.

Une API doit permettre aux développeurs d’infuser l’expérience Conversational Analytics au sein d’une application ou un flux de BI embarqué.

Une feuille de route à préciser

Google Cloud a bien l’intention de rassembler ces ouailles sous une même bannière, selon Abhishek Kashyap.

« Ces agents s’appuient sur le cheminement de pensée des derniers modèles Gemini en date. Les usagers pourront accéder à ces plans d’action et les modifier. »
Abhishek KashyapDirecteur de la gestion produit BigQuery, Google Cloud

« Nous sommes en train de fonder une famille d’agents qui travaillent ensemble pour automatiser des tâches et assister tous les utilisateurs de BigQuery », affirme-t-il. « Ces agents s’appuient sur le cheminement de pensée des derniers modèles Gemini en date. Les usagers pourront accéder à ces plans d’action et les modifier, car beaucoup de choses sont liées au contexte de l’entreprise », ajoute-t-il.

L’agent consacré au data engineering sera accessible depuis la console BigQuery. Il rassemblera les tâches de préparation de données et de conception et d’optimisation de pipelines.

Data Science Agent sera prochainement disponible depuis Colab Enterprise et BigQuery Studio. Davantage de fonctionnalités de « wrangling », d’exploration de données, d’exécution et d’évaluation de modèles de prédiction seront proposées. GCP n’a toutefois pas communiqué une feuille de route détaillée.

Outre les agents consacrés à l’analytique, la data science et à l’ingénierie de données, GCP conçoit des agents pour assister à la gouvernance de données. En préversion, « knowledge engine » doit analyser les modèles de données, aider à définir les métriques et constituer les glossaires métiers, tout en générant les métadonnées nécessaires à la bonne gestion des informations. Une fonctionnalité consacrée à la détection d’anomalies est en phase d’expérimentation.

« Les ingénieurs de données ont des connaissances, des compétences et des méthodes de résolution de problèmes différentes de celles des data scientists ou des business analysts », commente Stephen Catanzano, analyste chez Enterprise Strategy Group, une filiale d’Omdia. « Il est logique d’adapter l’expérience des utilisateurs à ces différents profils ». Pour autant, l’analyste signale que Google Cloud n’a pas expliqué la manière dont ces agents IA coopéreront, ni comment leurs usagers éviteront de refaire certaines tâches parfois communes.

Entrelacer le SQL et l’IA générative

La plupart de ces agents s’appuieraient sur la fonctionnalité de recherche sémantique intégrée dans BigQuery, désormais en disponibilité générale. D’ailleurs, comme la base de données AlloyDB, la plateforme analytique prend en charge l’algorithme d’indexation maison, ScANN. « Vous pouvez utiliser ScANN en corrélation avec les fonctionnalités de Vertex AI », indique Abhishek Kashyap.

Mais Google Cloud veut aller plus loin en combinant du SQL et des prompts en langage naturel. C’est le rôle de la fonctionnalité nommée AI Query Engine, une expérimentation annoncée pendant l’événement. Celle-ci devra permettre de traiter des données structurées et non structurées à travers une même requête. Le planificateur de requêtes de BigQuery est en cours d’aménagement pour faciliter l’appel à des LLM comme des fonctions d’une requête SQL. Du même coup, GCP entend profiter des capacités de raisonnement des modèles Gemini pour étendre les analyses de données. « Ce moteur prend en charge un large éventail de cas d’usage, notamment la création de features plus riches pour les modèles, l’exécution d’une segmentation nuancée et la découverte d’informations auparavant hors de portée », assure la communication du groupe.

AI Query Engine semble une appellation marketing pour l’évolution des fonctions AI.GENERATE_TABLE. En préversion, elles permettent d’appeler les LLM Gemini 1.5 Flash et Pro, ainsi que Gemini 2.0 Flash (et bientôt les modèles du jardin de Vertex AI, dont Claude, Llama, Mistral) pour effectuer des tâches de classification, d’analyse de sentiments, de description d’images ou de traduction.

La prise en charge des LLM multimodaux et la génération de données structurées sont également au programme. Databricks et Snowflake travaillent sur des fonctionnalités similaires. De même, AWS est en train d’infuser Amazon Q dans SageMaker Unified Studio et QuickSight.

Pour approfondir sur IA appliquée, GenAI, IA infusée