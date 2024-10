Depuis 2022, le secteur de la gestion de données est obnubilé par l’IA générative. Outil grand public, puis objet d’expérimentations en entreprise, ChatGPT a largement inspiré les éditeurs et leurs clients.

Ces deux dernières années, il est apparu qu’il fallait une grande quantité de données pour entraîner et contextualiser un système d’IA générative.

Or, pour que toutes ces données soient prêtes à alimenter les outils d’IA, elles doivent être correctement préparées, souligne Gaurav Pathak, vice-président de la gestion des produits d’IA et des métadonnées chez Informatica.

« De nombreuses organisations détiennent des téraoctets voire des pétaoctets de données, structurées ou non. Mais une trop grande partie de ces données n’a pas été correctement gérée et gouvernée. Elles ne sont pas prêtes pour l’IA », lance-t-il. « Le nettoyage des données désordonnées aidera les entreprises à préparer les données pour l’IA ».

Pousser les migrations vers le cloud nettoyer les données pour exploiter l’IA générative

La « Fall Release » d’Informatica Intelligent Data Management Cloud (IDMC), officiellement, doit permettre aux entreprises clientes d’effectuer ce travail considéré comme fastidieux. L’un des éléments clés de la mise à jour est l’amélioration des capacités d’intégration pour les données stockées dans Databricks et Google BigQuery, selon Stephen Catanzano, analyste chez Entreprise Strategy Group [propriété de TechTarget également propriétaire du MagIT].

Cette mise à jour inclut une intégration entre les outils no-code d’Informatica et les capacités d’IA générative de Databricks ; une fonction de transformation de données basée sur le SQL qui permet aux utilisateurs de traiter les pipelines d’extraction, de chargement et de transformation de données (ELT) dans Databricks Delta Lake et Google BigQuery ; et un assistant qui guide les utilisateurs lors de l’ingestion et de la réplication des données pour les projets d’IA.

« L’alignement avec Databricks est une étape importante, car le concurrent de Snowflake gagne du terrain avec ses [capacités d’IA générative] », note Stephen Catanzano. « La plateforme IDMC doit être intégrée partout où les clients d’Informatica sont et elle doit jouer le rôle de chef d’orchestre des traitements. »

Kevin Petrie, analyste chez BARC US, salue également l’ajout de pipelines ELT vers Delta Lake et BigQuery.

« De nombreuses équipes chargées des données privilégient désormais les pipelines ELT, car elles peuvent effectuer des transformations sophistiquées sur les données après les avoir ingérées dans des plateformes telles que Databricks et Snowflake », assure-t-il.

De fait, ce sont les plateformes de données les plus populaires du marché. BigQuery conserve tout de même un certain attrait pour une partie de la clientèle d’Informatica, principalement les grandes enseignes de la distribution et de l’industrie, qui ne souhaitent pas héberger leurs données les plus critiques sur AWS. Oui, Snowflake et Databricks ont majoritairement développé leurs produits sur le cloud d’Amazon. Aussi, il est plus simple pour Informatica et ses clients de gérer les transformations sur la plateforme cible.

L’IA est un prétexte pour mieux couvrir les besoins d’intégration des entreprises qui migrent leurs données vers ces plateformes de traitement de données en clous. Dans ce contexte, bon nombre d’entre elles (parfois clientes historiques d’Informatica) ont multiplié les recours à des outils comme dbt, Fivetran, Talend… tous en partie concurrent d’IDMC.