zorandim75 - Fotolia

Openflow : Snowflake veut unifier l’ingestion des données structurées et non structurées

Avec son service basé sur Apache NiFi, Snowflake compte unifier l’ingestion de données structurées et non structurées. Vers sa plateforme ou non. Les clients sont enthousiastes, Futurum Group attend des preuves.

Lors de sa conférence annuelle Snowflake Summit, l’éditeur a annoncé la disponibilité d’Openflow, un service managé bâti sur Apache NiFi.

Pour rappel, Apache NiFi est un framework open source consacrée à la gestion et l’automatisation de flux de données dans des environnements distribués nés au sein des murs de la NSA en 2006. L’outil est un ETL complet, interface utilisateur « low-code » comprise.

Un service issu du rachat de Datavolo

Cette instrumentation de la technologie ouverte est une émanation du rachat de Datavolo clôturé en décembre 2024, une startup fondée par deux anciens d’Hortonworks qui s’est reposé sur NiFi pour l’adapter aux enjeux de l’IA générative. Datavolo souhaitait faciliter la constitution de pipelines adaptés au mécanisme RAG à l’aide de « processeurs » Python (NiFi est par nature une technologie écrite en Java, qui s’appuie sur la JVM) et les superviser à l’aide d’OpenTelemetry.

Ainsi, Openflow est capable de prendre en charge les cas d’usage liés à l’analytique, l’ingénierie de données, l’IA et le développement d’applications. Snowflake assure donc que ce service peut gérer des données structurées et non structurées en s’appuyant sur les fonctionnalités de base de NiFi (lineage, suivi en temps réel) et celles apportées par Datavolo et Snowflake (observabilité, sécurité, gouvernance unifiée).

Openflow compte 20 connecteurs sources natifs et plus de 200 « processeurs » NiFi. Le service s’appuie sur Snowpipe Streaming pour l’ingestion de données en quasi-temps réel.

La version d’Openflow actuellement disponible semble très proche de ce que proposait Datavolo. Ainsi, elle est disponible pour un déploiement derrière le VPC des clients sur AWS. Le déploiement du service via Snowpark Container Services est accessible en préversion privée à travers Microsoft Azure et Google Cloud. Plus tard, Snowflake étendra les déploiements derrière les VPC.

« Beaucoup de nos clients nous ont dit au fil des années que d’avoir un service cloud qui traverse leur pare-feu n’est pas idéal », justifie Christian Kleinerman, EVP Produit chez Snowflake. « Nous prendrons en charge un modèle “bring your own compute”. Les déploiements Openflow peuvent s’exécuter derrière le VPC des clients, mais aussi comme un service entièrement managé », ajoute-t-il.

« L’interopérabilité des données reste un point essentiel », commente Nick Patience, VP and Practice Lead AI chez Futurum Group, dans un billet de blog. « Openflow et la prise en charge étendue d’Iceberg sont essentiels dans un monde de sources de données et d’architectures diverses, y compris les systèmes sur site (ce qui, pour Snowflake, signifie des parties de son produit fonctionnant dans le VPC d’un client, et non un déploiement complet sur site) ».

Des promesses à vérifier, selon un analyste de Futurum Group

Pour l’instant, les connecteurs proposés (Excel, Workday, Box, Apache Kafka, Google Drive, Jira Cloud, Kinesis, Hubspot, MySQL, PostgreSQL, Slack, etc.) permettent d’envoyer des données vers une seule destination, Snowflake.

S’il est clair que Snowflake veut proposer une plateforme de bout en bout de l’ingestion de données à sa consommation par une application ou une IA, Openflow, comme son nom l’indique n’est pas réservée aux clients de l’éditeur.

« Bien évidemment, la plupart de nos clients feront atterrir leurs données sur Snowflake, mais comme il s’agit d’un framework générique, il n’y a pas de restrictions », déclare Christian Kleinerman. « Notre objectif est de simplifier le mouvement et le traitement de données de n’importe quelle source vers n’importe quelle destination ».

Actuellement, les clients utilisent des services ETL/ELT comme Matillion, Fivetran, Talend, DBT, etc. Or, ceux-là couvrent essentiellement les besoins d’ingestion de données structurées.

Auprès de SearchDataManagement, publication sœur du MagIT, Sam Biggs, directeur de l’IA et de l’ingénierie de l’automatisation chez CHG Healtcare, un spécialiste du recrutement médical aux États-Unis et Thevany Narayanamoorthy, directeur de la gestion produits chez TJX, un grand « retailer », – deux clients de Snowflake – ont salué l’annonce. Ils espèrent ainsi faire le pont entre les données structurées et non structurées.

Il faudra « surveiller l’adoption d’Openflow et son efficacité à simplifier l’ingestion de données provenant de diverses sources, y compris son modèle “Bring Your Own Cloud” et les environnements sur site », avance prudemment Nick Patience.

Cette volonté de se passer d’intermédiaire pour charger et transformer les données n’est pas spécifique à Snowflake. Databricks avait présenté, l’année dernière, Lakeflow, un service ETL/ELT basé sur la technologie d’Arcion. Lui aussi veut pouvoir traiter les données non structurées.

Pour approfondir sur Middleware et intégration de données