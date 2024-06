Selon le dirigeant, cette décision a été prise il y a deux ou trois ans, mais ce ne fut pas sans débats entre la direction et les responsables de l’ingénierie. « Il y a deux ou trois ans, mon cofondateur, Matei Zaharia, et moi-même avons dit à l’entreprise que nous devions construire une version “lift and shift” du serverless », déclare Ali Ghodsi lors du keynote d’ouverture du Datai+AI Summit 2024. « Nos ingénieurs ont refusé. Ils nous ont répondu qu’il faudrait reconstruire les services de zéro pour y arriver. Nous leur avons dit non. Il s’est avéré que nous avions tort », lâche-t-il. « Ils ont travaillé dur pendant deux ans pour reconcevoir les produits comme si nous lancions une entreprise ».

Les jobs Apache Spark, les charges de travail IA liées à Mosaic AI, les notebooks, les charges de travail Databricks SQL, les tableaux de bord, les flux de travail et l’ensemble des pipelines de données seront disponibles dans ce mode.

Aujourd’hui, Databricks propose en préversion des services serverless pour les notebooks et les workflows, pour les pipelines DLT, pour les warehouses SQL, entre autres.

Jusqu’alors, quelques services de la plateforme étaient accessibles dans ce mode serverless. Par exemple, en 2023, Databricks avait annoncé la disponibilité générale de Model Serving, une solution de déploiement de modèles de machine learning basé sur MLFlow. Le service sert principalement à exécuter des algorithmes de recommandation ou de matchmaking en temps réel.

Actuellement, Databricks dispose de deux orchestrateurs d’instances de calcul. Le premier est intégré dans le control plane de la plateforme, en sus des systèmes de gestion des requêtes, de code, du catalogue Unity, les applications Web. Il pilote les instances déployées par le client dans son propre compte cloud.

Un second control plane pilote les instances de calcul serverless. Celles-ci sont déployées depuis le compte Databricks du client, mais sont gérées par l’éditeur sur le cloud choisi par le client. Databricks assure que ces pools de calcul s’exécutent dans des limites réseau et « plusieurs couches de sécurité » sont en place pour isoler les différents workspaces des clients de Databricks et « des contrôles réseau supplémentaires entre les clusters d’un même client ».

La promesse ? Simplifier la gestion des clusters et des middlewares sous-jacents de la plateforme. « En arrière-plan, nous optimisons les instances de calcul et vous n’aurez plus à choisir votre version d’Apache Spark. Nous la mettrons à jour pour vous », assure Ali Ghodsi.

« En utilisant vos propres ressources de calcul, vous payez pour le temps d’inactivité, ce qui peut coûter très cher. En revanche, avec serverless, vous ne payez que pour les ressources que vous utilisez réellement. Il n’y a pas de clusters à configurer et donc pas de temps d’inactivité à prendre en compte », vante-t-il.

En tout logique, Databricks adapte ses mécanismes de reprise après sinistres, de sécurité et de gestion des coûts.