Cet article fait partie de notre guide: Spark et SQL-On-Hadoop : vers un Hadoop augmenté

Drill, prêt pour la production

Le projet Open Source, chapeauté par la fondation Apache, de moteur de requête interactive compatible SQL, pour bases NoSQL, HDFS et services de stockage Cloud, débarque dans sa version 1.0.

La fondation Apache a annoncé la version 1.0 du projet Open Source Drill, un moteur de requête interactive, compatible SQL, dont la particularité est de pouvoir interroger et manipuler les données des bases NoSQL, HDFS (Hadoop) ainsi que des services de  stockage Cloud , sans avoir à transformer les données.

Ce projet est né chez MapR, l’un des pure-players des distributions Hadoop, qui a fait le choix de verser Drill dans la communauté Open Source Apache en 2012. Le projet avait atteint le rang de projet de premier niveau au sein de l’institution Open Source en décembre dernier.

Pas de transformation de données

« Apache Drill révolutionne l’exploration de données et l’analytique en permettant aux analystes, aux utilisateurs métier, aux data scientists et aux développeurs d’explorer et d’analyser ces données sans sacrifier la flexibilité et l’agilité » offerte par les bases NoSQL, HDF et le stockage Cloud, explique la Fondation Apache dans un communiqué. De plus, « Drill traite les données in-situ sans que les utilisateurs aient besoin de définir des schémas et transformer les données », poursuit-elle. Drill supporte le modèle JSON, garantissant également des performances élevées, affirme encore la fondation.

L’un des points forts de Drill est justement de pouvoir interroger nombre de bases non-relationnelles  et de système de fichiers tiers, comme HBase, MongoDB, MapR-DB, HDFS, MapR-FS, Google Cloud Storage, Swift, Azure Blob Storage et AWS S3. «  Par exemple, explique la page du projet, vous pouvez associer un profil utilisateur dans MongoDB à des logs d’événements dans Hadoop ».

Le support du standard SQL permet enfin d’utiliser  les outils classiques de BI avec Drill, comme ceux de SAS, MicroStrategy, Tableau ou encore Tableau ou Qlik, grâce aux pilotes ODBC et JDBC de Drill.

 

Pour approfondir sur Big Data et Data lake

Close