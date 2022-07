S’il est bousculé par les fournisseurs de data warehouse, Databricks se distingue par sa maîtrise du moteur Apache Spark. De fait, le projet créé par les fondateurs de la société a évolué pour prendre en charge le streaming de données.

Cette capacité rencontre un franc succès chez ses clients, selon les propos d’Ali Ghodsi, cofondateur et PDG de Databricks. « Plus de 1200 clients utilisent le streaming de données sur Databricks. Nous avons observé une croissance de 150 % de ce type de jobs par rapport à l’année dernière, tandis que nos revenus liés au streaming ont été multipliés par 2,5 sur la même période », se réjouit-il.

Cependant, il y a plusieurs limites à lever pour améliorer l’accessibilité et les performances du moteur de traitement distribué. D’où l’intérêt pour Databricks de soutenir les efforts de la communauté open source afin d’apporter son expertise à ses clients.

Spark Connect : un découplage nécessaire

« Pour beaucoup de gens, Spark est synonyme de grosses capacités de calcul, de clusters contenant des milliers de machines pour servir des applications à large échelle », déclare Reynold Xin, cofondateur et chief architect chez Databricks. « Or les applications ne vivent plus seulement dans les data centers, mais dans de multiples environnements ».

En ce sens, lors de la conférence Data+AI Summit, l’éditeur a d’abord présenté Spark Connect. Ce projet en développement s’appuie sur une API afin d’exécuter des traitements sur une instance Spark depuis des applications, des IDEs, des notebooks ou des SDKs liés au langage de programmation Go, R et Python. En clair, il serait possible de lancer des traitements Spark à distance depuis des appareils mobiles ou des objets connectés.

Ici, Databricks et la communauté tentent de résoudre un problème connu de longue date. « Si vous regardez de plus près, Spark s’appuie sur un driver monolithique. Ce driver exécute les applications des utilisateurs et le code Spark. Cela inclut l’analyseur, l’optimiseur et le moteur d’exécution full flash », explique Reynold Xin. « Ce couplage rend difficile l’exécution de Spark dans des environnements distants. En fait, c’est même le contraire qui se produit : vous devez embarquer l’application sur le cluster Spark ».

L’architecte en chef évoque plusieurs tentatives infructueuses pour tenter de régler ce problème. Certains ingénieurs ont essayé d’envoyer des requêtes SQL vers une passerelle embarquée dans le moteur, mais cela limite l’utilité de Spark, habituellement taillé pour traiter des charges de travail de machine learning.

« D’autres projets ont apporté un protocole maison pour envoyer du code via des notebooks Jupyter, par exemple », relate le Chief Architect. « Or, cela s’avère très difficile à débugger et pour les langages de programmation qui n’ont pas de méthode d’interrupts pour la JVM, vous pouvez à peine le faire fonctionner ».

Et si un protocole de ce type peut fonctionner, il provoquerait un ensemble de problèmes dus aux manques d’isolation entre les jobs concurrents. Un projet incubé comme Apache Livy, créé par Microsoft et Cloudera, devait répondre aux mêmes enjeux, mais il semble à l’abandon depuis 2020.

De son côté, Spark Connect s’appuiera sur une API Dataframe. Cette API permet d’envoyer des Dataframes, à savoir des collections de données organisées en colonnes, enrichies pour Spark. Cette interface peut être habituellement écrite dans les langages de programmation Scala, Java, Python, R.

Pour l’instant, le prototype de Spark Connect prend en charge Python. Spark Connect utilise des points de terminaisons gRPC et le protocole de sérialisation Protobuf pour faire la liaison entre le client et le serveur. « L’API est agnostique des langages de programmation. Une fois appelée, elle génère des plans de requêtes logiques non résolus en s’appuyant sur protobuf et envoie ce code via gRPC au serveur », explique Reynold Xin. « Le serveur peut exécuter ces plans de requêtes en utilisant le pipeline d’exécution standard d’optimisation de requête et il renvoie un résultat ». Les résultats envoyés par le service gRPC coté serveur arrivent sous forme de batch Arrow au client.

« L’idée, c’est de pouvoir appeler Spark à la demande depuis des applications distantes, qui ne résident pas sur le même cluster », résume Matei Zaharia, cofondateur et CTO de Databricks, auprès du MagIT. « L’autre avantage subtil, c’est de permettre de séparer la mise à jour de l’API de celle du serveur Spark ».

Il reste maintenant à mettre en pratique cette fonctionnalité. Elle a été présentée à la communauté le 25 mai dernier et proposée officiellement le 3 juin 2022.