sdecoret - stock.adobe.com

Qlik lance un Lakehouse ouvert dédié à l’intégration de données

Alors que Snowflake et Databricks encouragent leurs clients à adopter leurs propres solutions d’intégration de données, Qlik lance Open Lakehouse, un environnement consacré aux pipelines nourrissant les tables Iceberg.

Lors de sa conférence annuelle, Qlik a lancé la préversion de Qlik Open Lakehouse. La capacité est incluse dans l’édition standard de Qlik Talend Cloud. Oui, le spécialiste de la BI et de l’ingestion de donnés lance un lakehouse managé, pour l’instant basé sur Amazon S3, EC2 et le format de tables open source Apache Iceberg.

Le choix des armes

Contrairement à Snowflake, Databricks, Google Cloud, AWS et Microsoft, l’éditeur propose une plateforme agnostique. Agnostique, car elle ne verrouille pas le catalogue de métadonnées des tables Iceberg : les clients pourront utiliser AWS Glue, Apache Polaris et Snowflake Open Catalog (Unity Catalog est déjà sur la feuille de route). Agnostique parce que les clients peuvent interroger ce lakehouse avec un large éventail de moteur de requêtes, dont Talend, Snowflake, Amazon Athena, Trino, Presto, Dremio, Flink, Clikhouse ou encore Apache Spark. De même, il est déjà prévu d’héberger l’offre managée en dehors d’AWS.

Qlik oblige, l’éditeur s’occupe en revanche de l’ingestion, le change data capture, les jobs ETL/ELT et le mirroring de données. A la disponibilité générale, l’éditeur disposera de plus de 200 connecteurs sources. Cela doit permettre à ses clients d’ingérer leurs données dans des tables Iceberg au sein d’un environnement S3. Les ressources de calcul peuvent être gérées par les entreprises derrière leur VPC à partir d’instances EC2 Spot, éphémères. Évidemment, l’acteur prend en charge les flux batch et quasi-temps réel.

Gérer des tables et des entrepôts/lakehouse open source n’est pas une mince affaire. C’est pour cette raison que bon nombre d’entreprises se sont tournées vers Snowflake et Databricks. Or, rappelle Qlik, ces plateformes gèrent d’abord les tables Iceberg comme des tables externes. D’où cette proposition qui en réalité est celle d’Upsolver.

La vision du lakehouse ouvert d’Upsolver infusé dans Qlik Talend Cloud

En janvier 2025, Qlik a annoncé l’acquisition d’Upsolver. Outre son expertise de Debezium, une plateforme distribuée de change data capture, Upsolver a développé un savoir-faire en matière de gestion de tables Iceberg (mapping automatique et suivi de l’évolution des schémas, résolution de conflits, partitionnement, gestion des mises à jour et des suppressions), mais aussi de l’optimisation de leur stockage. D’où la prétention de Qlik d’accélérer considérablement les requêtes et de diviser par deux le coût du stockage.

Upsolver serait capable d’optimiser les tables en fonction de leurs usages et leur taille, « dynamiquement ». Selon Roy Hasson, Senior Director Product Management chez Qlik et ancien d’Upsolver, l’entreprise rachetée par Qlik a développé un système de synchronisation des catalogues de métadonnées. Elle a aussi mis au point un mécanisme nommé Iceberg Live Tables. Celui-ci permet de créer des pipelines déclaratifs en SQL à partir des flux de données sources.  

Mais il ne faut pas voir Open Lakehouse comme un concurrent de Snowflake ou Databricks. En tout cas, pas encore. Qlik entend surtout offrir une plateforme consacrée à la gestion de bout en bout des pipelines de données pour nourrir les tables Iceberg. Le système de mirroring permettrait de reproduire – sans les copier – les tables présentes dans Open Lakehouse vers Snowflake.

L’objectif est bien de nourrir des tableaux de bord, des produits de données, des applications d’IA ou des outils de data science. Étrangement, Qlik n’assume pas de proposer des moteurs de requêtes managés pour alimenter Qlik Analytics. Au lieu de ça, les clients ont le choix des armes pour ce faire. Et ce serait justement ce qui les intéresse. De fait, Snowflake, Databricks, Google Cloud, Microsoft Azure poussent pour rassembler l’ensemble des briques de gestion et d’analyse de données en seule plateforme. Des solutions qui, malgré leur ouverture, font émerger des verrous propriétaires.

« L’initiative Qlik Open Lakehouse est un développement important que nous suivons de près », affirme David Navarro, Data Domain Architect chez Toyota Motor Europe, dans un communiqué de presse. « Les grandes entreprises comme la nôtre ont un besoin urgent d’interopérabilité entre diverses unités commerciales et partenaires, chacun gérant sa propre pile technologique et sa propre souveraineté en matière de données », poursuit-il. « Apache Iceberg s’impose comme la clé du partage de données sans copie dans des entrepôts de données indépendants des fournisseurs, et l’engagement de Qlik à fournir des performances et un contrôle dans ces paysages complexes et dynamiques est précisément ce dont l’industrie a besoin ».

Pour Donald Farmer, fondateur et analyste principal chez TreeHive Strategy, ancien vice-président de l’innovation et du design chez Qlik, Open Lakehouse est un moyen pour l’éditeur de rattraper son retard. « C’est une fonction de rattrapage que les clients existants apprécieront grandement », assure-t-il. « Elle permet à Qlik de se mettre au diapason des bonnes pratiques émergentes en matière d’architecture d’analyse de données ».

Il s’agit plutôt de proposer une alternative à l’offre de Fivetran, et aux outils d’intégration des fournisseurs cloud, de Databricks et de Snowflake. Qlik se présente en intermédiaire « indépendant » entre les données des entreprises et leurs plateformes « data ».

Qlik Open Lakehouse entrera en disponibilité générale au mois de juillet 2025.

Pour approfondir sur Middleware et intégration de données