Teradata fait entrer le Big Data dans la famille SQL

Afin de faciliter les possibilités d’administration et de gestions des environnements Big Data comme Hadoop, Teradata a présenté une technologie qui associe le monde Hadoop ainsi que les données non structurées au très populaire SQL.

Fin octobre, Teradata a donné le coup d’envoi de la course qui consiste à rendre accessibles les entrepôts de données non structurées, semi-structurées et orientés lignes et colonnes, dans une unique architecture intégrée et à permettre leur gestion et leur traitement depuis cette architecture. Avec l’arrivée de son architecture de données unifiées (« Unified Data Architecture »), le spécialiste de l’entrepôt de données a initié une tendance que les autres fournisseurs - comme IBM, EMC et Oracle - pourraient bien suivre. L’architecture embarque des technologies dont la vocation est d’accélérer les traitements et d'abaisser les coûts lorsqu’il s’agit de capturer, de stocker et d’analyser des données dans les bases de données traditionnelles et les environnements Big Data bâtis sur Hadoop. Le framework MapReduce, développé au sein du projet Hadoop sur la base de concepts empruntés à Google, vise à simplifier le traitement en volume des données  distribuées sur des serveurs banalisés. La technologie a fait ses preuves mais elle nécessite de faire appel à de couteux développeurs pour modéliser, traiter et analyser ces données. Teradata affirme que son architecture permet aux développeurs ainsi qu’aux data scientists d’interroger des données non structurées stockées sur un système de fichiers HDFS (Hadoop Distributed File System), au moyen du langage de requêtage SQL, un langage très familier dans le monde des bases de données. « Désormais, vous pouvez bénéficier de la puissance de MapReduce et de la facilité d’usage de SQL », explique le CTO de Teradata Stephen Brobst. « Avant, avec Hadoop, les seules personnes capables d’extraire des données étaient celles qui les avaient placées », ajoute-t-il. Teradata a en fait déployé HCatalog, un framework de métadonnées Open Source développé par Hortonworks, et SQL-H, qui permet d’analyser des données stockées sur un filesystem HDFS en utilisant SQL. Rappelons également qu'Aster, désormais propriété de Teradata, avait inventé et breveté SQL-MapReduce, qui greffe à SQL des fonctionnalités de MapReduce. Cette technologie propose plus de 50 applications analytiques pré-intégrées. « Cela combine le meilleur des deux mondes », lance Brobst. L’appliance Teradata-Aster Big Analytics combine ainsi dans une unique machine ces deux technologies pour gérer et analyser les données dans Hadoop et dans la base de données relationnelles de Teradata. Cette machine peut être configurée pour stocker 15 petabytes de données, réparties entre les deux bases, affirme Teradata. L’architecture fonctionne aussi dans un environnement multi-serveurs. Teradata a également adapté son offre logicielle. L’outil Web d’administration de systèmes Viewpoint a ainsi été étendu pour gérer Aster dans une unique console. A terme, l’outil pourra également gérer et monitorer des bases Hadoop, mais pas avant 2013. Des connecteurs pour Hadoop permettront de déplacer des données, vers et hors d'un magasin Hadoop avec les distributions Hadoop de Cloudera et Hortonworks. Enfin, Teradata Vital Infrastructure permettra de monitorer les événements et d’identifier les risques et les incidents intervenus sur tant sur des bases Hadoop et Aster que des SGBDR. Pour Eric Rivard, directeur opérationnel de Cerulium, une société de conseil, il y aura de véritables gains financiers à utiliser SQL-H. « Hadoop est performant pour traiter des données illimitées, mais en extraire les données est bien trop difficile. » Robin Bloor, analyste en chef et fondateur de Bloor Group, soutient qu’Oracle, Microsoft et IBM devraient emboîter le pas à Teradata et proposer leurs propres systèmes pour faciliter l’administration et l’accès - de façon unifiée - à Hadoop et aux bases de données relationnelles. Mais pour le moment, Teradata est en tête. Malgré tout, pour les entreprises, intégrer données existantes et données historiques dans une même architecture de gestion et d’analyse représente toujours un véritable enjeu, voire un frein, ajoute Bloor. Il est peu probable que cette annonce les fasse opter pour un nouvel environnement, conclut-il.  

Traduit et adapté par la rédaction

Pour approfondir sur Editeurs

Close