Sergey Nivens - Fotolia

Datawarehouse : face à AWS et Snowflake, Oracle oppose la simplicité

Lors d’une conférence virtuelle, Oracle a annoncé la disponibilité générale de la nouvelle version d’Autonomous Data Warehouse (OADW), son entrepôt de données « pratiquement » entièrement managé, doté de capacités de traitements analytiques. Le fournisseur cloud veut contrer ses concurrents AWS, Microsoft, mais aussi Snowflake avec des outils simples à prendre en main.

Autonomous Data Warehouse se dote de capacités d’AutoML. Le service incorpore Oracle Machine Learning pour Python (OML4Py) qui comprend 30 algorithmes (régression logistique, arbre de décision, SVM, réseaux de neurones, K-means, classification bayésienne, etc.) et des bibliothèques (XGBoost). Ces algorithmes peuvent être mis en concurrence sur un cas d’usage spécifique. Des API REST permettent d’appeler des modèles de classification et de régression développés à l’aide du framework ONNX ou des briques NLP.

Suite de l'article ci-dessous

Le datawarehouse supporte aussi les données orientées graphes. Les utilisateurs peuvent les interroger via le langage PGQL (property graph query language) et les étudier avec « plus de 60 algorithmes d’analyse graphes en mémoire ». À cela s’ajoute la possibilité de réaliser des analyses spatiales, fonctionnalité généralement attribuée aux bases de données SIG.

Concernant les performances et les accès aux données, OADW profite d’une « interrogation facilitée » dans Oracle Big Data Service (Hadoop) via des liens après avoir déployé une instance Oracle Cloud Query Server. Une intégration avec OCI Data Catalog est censée presser la découverte automatisée de données dans les espaces de stockage objet.

Dans un communiqué, Oracle fait également mention « de capacités de montée en puissance externe des traitements pour accélérer les requêtes sur de grands ensembles de données dans les systèmes de stockage d’objets ». Si la phrase nous paraît cryptique, elle pourrait concorder avec la possibilité de requêter, depuis novembre 2020, des services de stockage objet externes, en l’occurrence Amazon S3 et Azure Blob Storage. Les développeurs peuvent aussi interagir avec les données du data warehouse depuis l’outil low-code historique d’Oracle, APEX, qui refait surface depuis peu.

Edit : les capacités de montée en puissance externe traduise en réalité une approche élastique des traitements de données sur Oracle Object Storage, mais il est bien possible de requêter les données sur Azure Blob Storage, S3 et Google Cloud Storage.

L’ombre d’Oracle 21c

Si certaines fonctionnalités d’Autonomous Data Warehouse semblent familières, c’est tout simplement qu’Oracle les fait remonter d’un cran, depuis sa base de données Oracle 21c. Le fournisseur cloud y ajoute tout de même des capacités spécifiques pour s’adresser aux data analysts et aux experts métier et aux data scientists. De loin, elles pourraient être perçues comme une forme d’habillage.

Oracle, lui, assure proposer des interfaces graphiques pour utiliser les algorithmes d’AutoML, via AutoML UI, et les graphes à travers Graph Studio. Un outil se détache de la mêlée : Database Actions. Il permet, à l’instar d’un ETL nouvelle génération, de charger des données, de les nettoyer et de réaliser les premières explorations. Tout comme les deux UI, Database Actions ne nécessite pas de savoir coder ni même de manipuler la syntaxe SQL : pratiquement tout se fait en glisser-déposer.

Au chargement d’un fichier, Database Actions interprète automatiquement la table SQL et peuple en conséquence le nom des colonnes et les types de données. L’usager peut vérifier l’exactitude des informations et des champs avant de les placer dans l’entrepôt. C’est sur le constat fait par les utilisateurs et par leurs propres observations que les dirigeants d’Oracle poussent OADW une prise en main simplifiée.

Oracle Autonomous Data Warehouse, concurrent direct de Redshift et Snowflake

« Dans Amazon Redshift, vous devez exécuter une commande SQL pour créer une table, puis une autre commande SQL pour charger les données. Et vous devez savoir quel est le format de votre fichier et comment décrire ce format à la base de données Redshift. Et, comme tout ce qui est SQL, vous avez besoin de la syntaxe, vous devez faire ça bien. Si vous oubliez une virgule ou des crochets, vous obtenez une erreur. Dans ce cas-là, vous devez revenir en arrière et le déboguer. C’est le fonctionnement standard des entrepôts de données cloud », déclare George, Lumpkin Vice-président, gestion des produits Autonomous Data Warehouse chez Oracle.

« Redshift n’est pas le seul concerné. Vous pouvez regarder la documentation de Snowflake, c’est presque identique. Si vous consultez la documentation d’Autonomous Data Warehouse d’il y a quelques mois, c’est la même chose », reconnaît-il.

Dans son communiqué, Oracle pousse les arguments des analystes, ceux des cabinets de conseils. Pas moins de cinq d’entre eux sont cités. Sans surprise, tous valident cette stratégie portée vers les usagers.

« [Avec les nouvelles fonctionnalités, les métiers] n’ont plus à dépendre de l’informatique, des administrateurs DBA ou systèmes pour gérer les données. »
Holger MuellerDirecteur et analyste, Constellation Research

Holger Mueller, directeur et analyste principal chez Constellation Research, remarque qu’avec les nouvelles fonctionnalités, les métiers « n’ont plus à dépendre de l’informatique, des administrateurs DBA ou systèmes pour gérer les données ».

Mark Peters, analyste principal chez Enterprise Strategy Group [propriété de TechTarget, également propriétaire du MagIT], lui considère la facilité d’usage par rapport à la concurrence. « Alors que les concurrents d’Oracle (qui nécessitent encore souvent beaucoup d’expertise, d’outils tiers ou d’extraction manuelle de bases de données externes) ont encore beaucoup à faire pour mieux répondre aux besoins des non-techniciens, Oracle est déjà au rendez-vous ».

Toucher un plus large public

Si les clients habituels d’Oracle sont principalement de grands comptes, George Lumpkin remarque que l’orientation prise par Oracle Autonomous Data Warehouse depuis trois ans a attiré des clients en provenance des PME et des ETI, tout comme des directions métiers, moins techniques. « Dès le début, nous avons vu beaucoup de petites organisations recourir à Autonomous Data Warehouse et franchement, des sociétés qui n’étaient pas des clients traditionnels de nos bases de données. […] Nous pensons que ces fonctionnalités rendront OADW plus attrayant pour ces clients », affirme-t-il.

Toutefois, il remarque que les grands groupes continueront à employer massivement les briques SQL classiques pour former de « gros data warehouses » et leurs métiers manipuleront les outils « user-friendly » pour bâtir des datamarts, de petits entrepôts ou enrichir les architectures existantes.

Enfin, si le fournisseur cloud a également des capacités analytiques, il ne compte pas les intégrer directement dans OADW. « Nous n’intégrons pas la BI parce que nous pensons que les clients veulent choisir leur propre outil de prédilection », reconnaît George Lumpkin. « Nous avons Oracle Analytics Cloud, notre produit phare sur ce segment, et puis il y a des outils populaires comme Tableau et Qlik qui sont largement utilisés par nos clients par-dessus nos entrepôts de données ». Microsoft est également un concurrent de taille avec Power BI et des acteurs émergents tels que Thoughspot commencent à intéresser fortement les sociétés.

Pour autant, la firme dirigée par Larry Ellison n’abandonne pas ce marché. Depuis quelques mois, elle a pourvu sa plateforme BI Oracle Analytics de nouvelles capacités (NLP, explicabilité des modèles de machine learning, différentes formes de visualisation, etc.).  

Pour approfondir sur Datawarehouse

Close