Avec ClearScape Analytics, Teradata veut briller dans le machine learning

Teradata tente de redéfinir sa place sur un marché de la gestion de données dominé par quelques acteurs ayant pris le train du cloud avant lui. L’éditeur dit se distinguer par ses capacités analytiques et de machine learning à l’échelle en mode hybride.

Alors que son data warehouse était très présent dans le SI des grands groupes, l’éditeur a un peu perdu de son aura.

NĂ©anmoins, Teradata se perçoit – et l’écosystème lui renvoie cette image â€“ comme l’apporteur de solutions techniques Ă  l’échelle et robuste.

Il développe véritablement son offre cloud depuis quatre ans et mise sur l’hybridation avec VantageCloud et VantageCloud Lake.

L’offre managée VantageCloud Lake a été lancée en 2022, d’abord sur AWS, puis sur Microsoft Azure en 2023 et Google Cloud cet été.

Comme ses concurrents et partenaires, Teradata se voit imposer par ses clients l’adoption de formats de tables ouverts. En juin 2024, il a rendu compatible VantageCloud Lake avec Apache Iceberg V2 et Delta Lake V3.

L’éditeur prend en charge les fichiers Parquet, ORC et Avro avec Apache Iceberg et uniquement Parquet avec Delta Lake.

La prise en charge des catalogues de métadonnées est pour l’instant limitée à Amazon Glue et Unity Catalog pour les deux formats et Apache Hive avec Iceberg.

Pour rappel, Unity ne peut pas écrire des données en Iceberg. Dans la configuration de Teradata, le catalogue de métadonnées de Databricks est le seul capable d’écrire des données dans les réceptacles Delta.

Delta Lake est pris en charge sur Amazon S3, ADLS Gen 2 (Azure Data Lake Service Generation 2), tout comme Apache Iceberg qui est Ă©galement compatible avec Azure Blob Storage.

« Prochainement, nous rendrons accessibles ces formats de table ouverts en mode hybride et sur site Â», indique Jean-Marc Bonnet, directeur avant-vente Europe de l’ouest chez Teradata.

Plus que la prise en charge des formats ouverts, Teradata pousse fortement ses capacités de traitements de machine learning et de deep learning.

« Nous travaillons sur environ 140 patterns d’IA et de machine learning oĂą l’on optimise les traitements Â», rĂ©sume Jean-Marc Bonnet. « Ă€ isoconfiguration, nous rĂ©duisons significativement le coĂ»t Ă  la requĂŞte Â», insiste-t-il.

En juin, l’éditeur a lancĂ© la prĂ©version publique d’AI Unlimited, un moteur d’exĂ©cution de charges de travail AI/ML Ă  dĂ©ployer sur AWS, Azure et Microsoft Fabric. Après s’être abonnĂ© sur les places de marchĂ© de l’un ou de l’autre des fournisseurs, il convient de configurer le dĂ©ploiement et de se connecter aux espaces de stockage objet (ADLS Gen 2, Amazon S3) pour ensuite exĂ©cuter des notebooks Jupyter et des fonctions ClearScape Analytics.

Étoffer et simplifier ClearScape Analytics

Pour rappel, ClearScape Analytics reprend les fonctions et les pipelines IA/ML intégrés dans le moteur de la base de données de Teradata et en ajoute d’autres.

Justement, lors de son Ă©vĂ©nement londonien Possible 2024 le 17 septembre, Teradata a prĂ©sentĂ© de nouvelles fonctionnalitĂ©s spĂ©cifiques Ă  cette collection d’outils.

En premier lieu, Teradata propose PySpark2teradataml. Comme son nom l’indique, cet outil permet de convertir des charges de travail PySpark dans un langage compris par le moteur massivement parallèle de l’éditeur. PySpark est une librairie pour écrire des traitements exécutés par Apache Spark en Python.

Teradata promet que cela permet de rĂ©duire les coĂ»ts et la complexitĂ© aux clients qui devaient exporter les donnĂ©es de VantageCloud vers des « plateformes Apache Spark Â».

Une fois le code converti, les traitements peuvent ĂŞtre passĂ©s Ă  l’échelle pour « accĂ©lĂ©rer la mise en production des modèles de machine learning Â». Selon Jean-Marc Bonnet, le code ajustĂ© par des mĂ©caniques propriĂ©taires demeure « ouvert et exploitable dans d’autres univers Â» que celui de Teradata. Ă€ noter que les clients devront parfois passer par la case refactorisation.

Sur le papier, cela ressemble à un moyen pour les clients de se passer de Databricks, la plateforme de référence pour exécuter des charges de travail Apache Spark. Petit différenciateur tout de même, Teradata dit pouvoir les exécuter en mode hybride, multicloud et, au besoin, sur site, ce que ne fait pas Databricks.

Dans la mĂŞme veine, l’éditeur entend faciliter l’exĂ©cution de code Ă  travers des frameworks open source avec Teradata Open-source ML. Pour l’instant, seul scikit-learn est pris en charge. L’éditeur avait dĂ©jĂ  annoncĂ© un partenariat avec Anaconda afin de prendre en charge des packages R et Python.

De manière générale, Teradata dit simplifier le déploiement et l’exécution de modèles d’IA open source stockés à l’aide de VantageCloud.

Par exemple, le package Python lui permet d’intégrer des fonctions d’AutoML. L’éditeur couvre différents types de problèmes de régression, de classification binaire et multiclasse à travers des modèles préentraînés (GLM, SVM, Decision Forest, XGBoost, kNN). Selon Teradata, son module AutoML automatise l’exploration des features, le feature engineering, la préparation des données, le (ré) entraînement et la sélection du bon modèle. En outre, sa fonction BYOM (Bring Your Own Model) demeure d’actualité.

Mieux s’intégrer dans un écosystème élargi

L’éditeur annonce également une intégration avec la plateforme Knime. À la manière de Dataiku, celle-ci permet de développer des modèles et des pipelines de données à l’aide d’une interface low-code/no-code, ce qui favoriserait les usages en libre-service.

La prise en charge des technologies open source par Teradata n’est pas nouvelle. Seulement, les efforts d’intégration étaient jusqu’alors principalement menés par les clients et les partenaires de l’éditeur.

Sur le volet de l’IA gĂ©nĂ©rative, Teradata a pris du retard. MalgrĂ© l’intĂ©gration progressive de la vectorisation, le cĹ“ur de son warehouse ne prend pas encore en charge les embeddings Ă  la manière d’un SGBD vectoriel. C’est un travail en cours, d’après Jean-Marc Bonnet. Pour l’instant, les intĂ©grations rĂ©centes avec Google Vertex AI, Amazon SageMaker et Microsoft Fabric servent davantage des cas d’usage analytiques et de ML.

« Notre stratĂ©gie consiste Ă  simplifier et Ă  optimiser des charges de travail analytiques et de machine learning dans des environnements souvent très complexes Â», confirme Jean-Marc Bonnet.

Les solutions d’acteurs comme Google Cloud, Databricks ou encore Snowflake ont largement remplacé les appliances Intelliflex de Teradata déployées sur site. Alors qu’il détenait une place importante, à l’instar d’Oracle, Teradata a mis du temps à réagir et sait qu’il doit s’intégrer dans les architectures cloud existantes. D’autant que ces coopétiteurs sont plus proches des communautés open source.

« Nous ne voulons pas tout remplacer par Teradata. Pas du tout Â», souligne Jean-Marc Bonnet. « Il s’agit plutĂ´t de montrer que nous savons nous intĂ©grer dans un Ă©cosystème variĂ©, qui restera diversifiĂ© et complexe, tout en fournissant les outils nĂ©cessaires pour optimiser les processus lorsque cela est pertinent Â».

Teradata en (légère) perte de vitesse

Le groupe a dĂ©finitivement pris le train du « pay as you go Â» : les licences perpĂ©tuelles et la vente d’équipement ne reprĂ©sentent qu’une part marginale de ses revenus. Au deuxième trimestre fiscal 2024, il a enregistrĂ© 5 millions de dollars de CA « perpĂ©tuel Â» quand les revenus rĂ©currents reprĂ©sentent 388 sur 436 millions de dollars de chiffre d’affaires (contre 462 millions de $ au Q2 2023). Ses revenus rĂ©currents annuels liĂ©s au cloud public atteignent 542 millions de dollars, en hausse de 31 % sur un an sur un total de 1,46 milliard de dollars d’ARR.

« Notre activitĂ© cloud public reprĂ©sente 37 % de notre ARR Ă  la fin du deuxième trimestre, ce qui montre bien que beaucoup de nos clients s’engagent avec nous, et ce, sur le long terme Â», assurait Steve McMillan, CEO de Teradata, lors de la prĂ©sentation des rĂ©sultats le 5 aoĂ»t dernier.

Or, « l’érosion Â» des dĂ©ploiements sur site est plus forte qu’à l’accoutumĂ©e en 2024. Un phĂ©nomène auquel Teradata savait ĂŞtre confrontĂ©. L’éditeur estime que la situation devrait se stabiliser l’annĂ©e prochaine. Certains clients avaient pris la dĂ©cision de dĂ©commissionner sa plateforme il y a quelques annĂ©es.

La baisse de son chiffre d’affaires et un besoin « d’amĂ©liorer l’exĂ©cution Â» ont amenĂ© Teradata Ă  annoncer le licenciement de 9 Ă  10 % de ses effectifs en aoĂ»t dernier, principalement dans la fonction des ventes.

Pour approfondir sur Data Sciences, Machine Learning, Deep Learning, LLM