IA : Google Cloud recentre son discours autour de BigQuery

Alors qu’il termine à peine la jonction de ses services analytiques autour de BigQuery, Google Cloud infuse les modèles et les outils liés à l’IA générative dans sa recette. Sa stratégie historique d’ouverture et l’empreinte existante de son data warehouse cloud devraient l’aider à convaincre les entreprises, selon Constellation Research.

Le fournisseur cloud promet depuis deux ans d’offrir une plateforme unifiée de traitement de données autour de BigQuery. Ce serait désormais chose faite, selon Google Cloud. En réalité, bon nombre de fonctionnalités sont encore en préversion.

Pour rappel, Snowflake et Databricks ont peu ou prou la même stratégie. L’année dernière, Snowflake a racheté Neeva, un éditeur d’un moteur de recherche « intelligent » dont le CEO, Sridhar Ramaswamy, est devenu le PDG de Snowflake après le départ de Frank Slootman. Databrick a acquis Mosaic ML, une plateforme consacrée à l’entraînement et à l’inférence de modèles d’IA.

« Nous avons des dizaines d’années d’expérience dans la gestion de données et dans le développement de l’intelligence artificielle », affirme Gerrit Kazmeier, vice-président et directeur général, base de données, analytiques et Looker chez Google Cloud. « Ce n’est donc pas comme si nous devions construire ou acquérir [une plateforme]. Nous pouvons uniquement nous concentrer sur la création de valeur pour le client ».

Plus précisément, Google n’a pas acquis d’entreprise dans le domaine du traitement de données depuis le rachat de Looker en 2019.

Les trois éléments essentiels d’une plateforme de traitement de données, selon GCP

Le directeur général estime, premièrement, qu’une plateforme complète doit pouvoir traiter un maximum de types de charges de travail sans multiplier les copies de données.

« Pour nous, il est essentiel qu’une plateforme puisse gérer diverses tâches telles que Spark, SQL et Python, tout en utilisant le même ensemble de données », assure le patron de l’analytique chez Google Cloud.

Lors de Next’24, le fournisseur a annoncé la disponibilité générale de BigQuery Studio, une interface rassemblant les éditeurs SQL, Python et permettant de partager des notebooks Python et des requêtes SQL. Dans la même veine, la plateforme de données prend désormais en charge les librairies pandas et Scikit Learn à travers le service BigQuery Dataframes.

En disponibilité générale également, BigQuery intègre les procédures stockées Spark écrites en Python, Java et Scala via l’éditeur PySpark.

À l’instar de Dataproc qui bénéficie d’un mode serverless pour les traitements Apache Spark depuis un an, ce mode intègre en préversion BigQuery. Un mode d’usage qui a largement convaincu les usagers de la plateforme de données. « Depuis la disponibilité de notre service Spark serverless il y a huit mois, dans le cadre de BigQuery, l’usage de Spark a grimpé de 600 % », avance Gerrit Kazmeier.

Par ailleurs, GCP a dévoilé la prise en charge en préversion d’Apache Kafka dans BigQuery. « Nous avons ajouté un nouveau moteur de streaming pour le traitement des données en temps réel », affirme Gerrit Kazmaier.

Deuxièmement, cette plateforme doit prendre en charge le plus de format et de types de données possible.

En sus d’Apache Iceberg et d’Apache Hudi, Google Cloud a annoncé la prise en charge de Delta Lake, le format de tables open source conçu par Databricks. Il est ainsi possible d’interroger des données au format Delta Lake stockées dans Cloud Storage ou dans Amazon S3 directement depuis BigQuery. Une capacité dérivée de BigQuery Omni et BigLake.

D’ailleurs, BigQuery Omni permet d’effectuer des fédérations de requêtes à travers des régions Google Cloud, AWS et Azure, tant que les données sont stockées dans un service de stockage objet en format open source. Une capacité notamment utilisée par Bayer, L’Oréal, ou encore Samsung. En préversion, il est possible d’obtenir des vues matérialisées incrémentales « cross cloud » et de bénéficier du mécanisme de Reverse ETL mis en place par Salesforce dans son Data Cloud, afin de « populer » (terme spécifique au SGBD signifiant alimenter) les tables de manière bidirectionnelle entre BigQuery et les orgs Salesforce.

Au cours de l’année dernière, l’utilisation de BigQuery pour traiter des données « multiformat, multicloud et multimodal » aurait été multipliée par 60 selon Google Cloud.

Pour cela, Google Cloud a mis au point un runtime metastore unifié et partagé pour Dataproc, BigQuery, Vertex AI et les services de fournisseurs tiers. Pour rappel, les formats tels Delta Lake et Iceberg sont constitués d’un format de tables, souvent Parquet, associés à des métadonnées, le plus souvent stockées dans un metastore Apache Hive. « BigQuery Metastore permet d’utiliser SQL et d’autres moteurs de traitement sur les mêmes jeux de données sans multiplier les données », affirme Sami Akbay, responsable produit groupe, data analytics chez Google Cloud, lors d’une session de Next’24. BigQuery Metastore est pour le moment en préversion.

« Nos clients veulent différencier leur stratégie de traitement de données de leur stockage. Les moteurs de traitement doivent pouvoir échanger des informations », ajoute Gerrit Kazmeier auprès du MagIT. « C’est cela qui nous différencie [des concurrents]. Nous avons plus de 1 000 partenaires logiciels qui s’appuient sur BigQuery et je pense que cela montre à quel point il est ouvert ».

Gerrit Kazmaier précise toutefois que le format propriétaire de BigQuery est plus performant qu’Apache Iceberg et Hudi, ce qui expliquerait que les clients choisissent l’un ou l’autre format en fonction des cas d’usage.

« Nous avons un taux de compression beaucoup plus élevé avec notre propre format. Il peut être beaucoup moins cher, est beaucoup plus efficace et également beaucoup plus performant », assure le directeur général.

Cette unification des traitements ne serait pas possible sans la mise en place d’une gouvernance centralisée, selon le fournisseur.

Les « data clean rooms » des espaces de travail permettant de partager des données et de les traiter de manière sécurisée sont en disponibilité générale. Il y est possible de restreindre les jointures, d’y appliquer des seuils d’agrégation ou d’exécuter le système de « confidentialité différentielle », une suite d’outils de bruitage des données s’appuyant sur Apache Beam qui doit limiter l’exposition de données personnelles ou privées.

Google Cloud imbrique BigQuery et Vertex AI

Troisièmement, une plateforme de données « doit s’interfacer avec les autres services de la plateforme, en particulier l’IA et l’apprentissage automatique, qui sont d’excellents outils de gestion de l’information », poursuit Gerrit Kazmaier.

En la matière, Google Cloud a surtout annoncé de nombreux ajouts en préversion dont :

  • L’intégration de BigQuery et de Vertex AI.
  • La prise en charge des vecteurs et la recherche vectorielle.
  • L’intégration dans BigQuery du mode document et audio de Vertex AI.
  • L’intégration des modèles de fondation Gemini 1.0 Pro et Gemini 1 Pro Vision.
  • Le lineage au niveau des colonnes et le catalogage des features, modèles et jeux de données de Vertex AI.
  • Gemini in BigQuery, un assistant propulsé par un LLM qui a accès aux métadonnées pour suggérer des préparation et exploration de données, ainsi que des optimisations de charges de travail.
  • BigQuery Data canvas, l’interface utilisateur qui rassemble les fonctions introduites par Gemini in BigQuery.
  • Gemini in Looker et Conversationnal Analytics, un assistant qui permet de générer des analyses en s’appuyant sur la couche sémantique de la suite BI.

« Avec l’intégration d’un système d’IA multimodal, Vertex AI et d’un système de traitement de données structurées et non structurées, en batch ou en streaming, vous pouvez concevoir des scénarii analytiques entièrement nouveaux », vante Gerrit Kazmaier.

Du côté de Vertex AI, outre la prise en charge des modèles « maison » Gemini 1.5 Pro, Imagen 2 et CodeGemma, GCP a annoncé un partenariat avec Anthropic pour accueillir les modèles de la collection Claude 3, ainsi que Mistral 7B et Mixtral 8x7B. En préversion encore, GCP présente une technique supervisée de distillation pour le fine tuning des LLM, la possibilité d’ancrer les recherches RAG (retrieval augmented generation) à l’aide de Google Search et d’appliquer des politiques de gestion des prompts et des outils d’évaluation des modèles.

Une stratégie GenAI qui convainc déjà Orange

À ce titre, auprès de SearchBusinessAnalytics, une publication sœur du MagIT, Doug Henschen, analyste chez Constellation Research considère que Google Cloud est au niveau de ses concurrents, voire un cran en avance par rapport à AWS et Microsoft, car GCP met l’accent sur l’ouverture et l’usage de LLM tiers. Il accuserait en revanche un peu de retard concernant l’infusion de l’IA générative dans ses bases de données.

« Google s’appuie sur ses points forts. L’ouverture aux éditeurs tiers et aux fournisseurs de modèles a été un élément important et constant de la stratégie Google Cloud ».
Doug HenschenAnalyste, Constellation Research

« Je dirais que Google doit simplement s’en tenir à sa stratégie, qui a été très cohérente jusqu’à présent », déclare-t-il. « Google s’appuie sur ses points forts. L’ouverture aux éditeurs tiers et aux fournisseurs de modèles a été un élément important et constant de la stratégie Google Cloud ».

Des arguments qui ont largement convaincu un client – partenaire dans la conduite de ses projets d’IA générative : Orange.

« Nous avons été très impressionnés par la vision très ouverte de l’équipe d’IA de Google Cloud. D’abord, elle s’engage à fournir des grands modèles de langage commerciaux et “open weight tiers” », affirme Steve Jarrett, Chief AI Officer chez Orange, lors d’un échange avec la presse française. 

« Puis, GCP offre un environnement de développement d’IA intégré de manière élégante à BigQuery, l’une des meilleures infrastructures de données au monde », poursuit-il.

« Enfin, Google Cloud a également annoncé qu’il proposerait des versions managées des services autour d’Hugging Face, de Llama Index, de LangChain. Nous disposons ainsi d’un environnement puissant dans lequel nous avons un ensemble unifié d’outils sur lesquels travailler, quelle que soit la combinaison de modèles et d’outils pour résoudre différents problèmes ».

Pour approfondir sur Datawarehouse

Close