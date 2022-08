Quelques jours après l’annonce de Cloudera de son data lakehouse, c’est au tour de Teradata d’annoncer VantageCloud.

Ce portfolio comprend deux éditions : VantageCloud Enterprise et VantageCloud Lake. Elles intègrent toutes deux ClearScape Analytics, une version renommée et améliorée de Vantage Analyst.

VantageCloud Enterprise n’est autre qu’une nouvelle appellation pour Teradata Vantage, une offre lancée en 2018. Jusqu’alors, Teradata proposait une version self-managed et managé de Vantage dans le cloud (soit derrière le VPN du client, soit dans des instances entièrement gérées par Teradata). L’édition VantageCloud Enterprise propose les mêmes options de déploiement multicloud et hybride.

S’il est bien un adepte du renommage, l’éditeur met surtout en avant VantageCloud Lake. Cette plateforme reprend les grands principes de l’architecture MPP (Massive Parallel Processing) du SGBDR historique par-dessus une nouvelle infrastructure cloud native.

« Nous avons réarchitecturé le châssis qui supporte notre moteur pour mettre au point VantageCloud Lake », résume Jean-Marc Bonnet, Sales Technology Director Europe de l’Ouest chez Teradata.

Un nouveau « châssis » cloud natif Cette solution aurait réclamé près de deux ans de développement et représenterait des centaines de millions de dollars dépensés en R&D, selon Steve McMillan, PDG de Teradata. Cette plateforme entièrement managée par Teradata est disponible sur AWS et sera proposée sur Azure et GCP dans le courant de l’année 2023. Pour l’instant, elle s’appuie sur les services EC2, EBS et S3 du géant du cloud. L’éditeur vante la séparation du stockage et du calcul, l’élasticité, l’autoscaling, la gestion multicluster ou encore l’isolement des charges de travail. Ce sont à peu de choses près les arguments brandis par l’éditeur au fur et à mesure de l’évolution de Teradata Vantage sur le cloud. Pour autant, Vantage n’apportait pas autant de flexibilité, selon Jean-Marc Bonnet. Outre le fait de réaliser les mises à jour automatiques des middlewares, il s’agit de pouvoir de démarrer et d’éteindre des instances à la volée, en fonction des besoins analytiques. Pour l’occasion, l’éditeur a revu sa manière de stocker les données. Les données au format CSV, Avro, Parquet et JSON sont placés par défaut dans un système de stockage objet. Depuis 2020, Teradata développe Native Object Store (NOS). Au début, il s’agissait de pouvoir lire les tables externes depuis des instances de stockage avant de décider s’il était intéressant de les migrer vers Vantage. Désormais, il est possible d’écrire les données dans ces object stores. VantageCloud Lake introduit une nouvelle catégorie de stockage objet : File System Object Store. Dans ce cas, le système de fichiers Teradata Database File System (TDFS) s’exécute par-dessus NOS. Ainsi, cela permet d’optimiser les performances en lecture et en écriture ainsi que les coûts d’exécution, selon Jean-Marc Bonnet. « Il est toujours possible d’effectuer de multiples traitements concurrents sur un object store natif, mais ils ne seront performants qu’en rajoutant des capacités de calcul », souligne-t-il. « Nous avons puisé dans TDFS différentes techniques d’indexation, d’optimisation de jointures, et de mise en cache pour rationaliser [la consommation de ressources] ». File Object Storage prend en charge le stockage objet natif d’AWS, Amazon S3, et supportera à l’avenir celui de Microsoft Azure (Azure Blob Storage) et de Google Cloud (Google Cloud Storage). « La contrepartie, c’est que ce système est moins ouvert qu’un object store natif, mais il est toujours possible de partager les données par d’autres moyens », précise le directeur technique français. En parallèle, Teradata continue de proposer le stockage en bloc. TDFS est optimisé pour s’exécuter sur EBS et cette combinaison serait très performante pour certains usages. Teradata s’est assuré que sa plateforme analytique pouvait exécuter plus de 1000 nœuds en parallèle pour autant d’utilisateurs et des milliers de requêtes concurrentes. « Teradata apporte quelque chose d’unique sur le marché des bases de données en cloud – une solution véritablement critique, à hautes performances, capable de supporter des charges de travail mixtes complexes », estime Donald Farmer, analyste chez The TreeHive Strategy auprès de SearchBusiness Analytics [propriété de TechTarget, également propriétaire du MagIT].

Répondre aux besoins analytiques des départements Toutefois, Jean-Marc Bonnet signale que VantageCloud Lake est une offre self-service disponible à partir de 4 000 dollars par mois, environ 48 000 dollars par an. Cette information n’est pas encore affichée sur le site de l’éditeur. Cette tarification – somme toute abordable par rapport aux canons tarifaires de l’éditeur – reflète plusieurs approches. En combinaison avec ClearScape Analytics, il s’agit de cibler des cas d’usage spécifiques liés à l’analytique avancée et au machine learning. D’une part, les instances peuvent être déployées dans différents départements d’une entreprise suivant les besoins. Depuis sa console, Teradata affirme fournir pour tous les produits du portfolio VantageCloud des fonctionnalités de gestion et de gouvernance des coûts. « Teradata […] propose des fonctionnalités importantes telles que la gestion de la charge de travail et la gouvernance des coûts, qui sont deux domaines où les concurrents ne sont pas seulement en retard, mais nettement plus faibles », ajoute Donald Farmer. Les témoignages de certains utilisateurs d’Amazon RedShift et Snowflake auprès du MagIT semblent corroborer cette observation. D’autre part, ClearScape Analytics agrémente Vantage Analyst d’une cinquantaine de fonctionnalités de traitements de séries temporelles et de machine learning en base. Aussi, la solution doit améliorer les fonctionnalités du framework ModelOps et l’Enterprise Feature Store développés par Teradata. En revanche, le fournisseur ne propose pas sa propre plateforme de data science. Il invite ses clients à utiliser les plateformes et les notebooks tiers dont Dataiku, H2O, AWS SageMaker, Jupyter ou encore R Studio. « Nous n’avons pas d’outils de data mining, de machine learning. Nous avons un moteur et des fonctions intégrées, mais elles n’étaient pas assez visibles », précise Jean-Marc Bonnet. Comme tout feature store, celui de Teradata doit permettre de stocker les paramètres, hyperparamètres, les data sets et les variables réutilisables lors de projets de data science. Le framework ModelOps, lui, orchestre et supervise les modèles à pousser en production dès qu’ils sont compilés en Python, en R, au format PMML ou ONNX. Qui plus est, Jean-Marc Bonnet assure qu’il est possible de fédérer les données entre VantageCloud Enterprise et Cloud Lake ou entre Cloud Lake et d’autres systèmes concurrents. En clair, VantageCloud Lake peut servir à attirer de nouveaux clients moins fortunés ou aider à déployer des projets « tactiques » et des expérimentations dans des grands groupes utilisant déjà les solutions de Teradata. « Dans de trop nombreuses entreprises, il est difficile de déployer des projets de data science de qualité, car les modèles qui ont l’air parfaits sur l’établi peuvent être difficiles ou coûteux à exécuter dans la pratique », avance Donald Farmer. « Les capacités de la base de données et les fonctions de gestion des modèles font de ClearScape une offre très intéressante ».