kentoh - Fotolia

Ingestion de données : Snowflake se connecte à Kafka et à Azure Data Factory

Snowflake a annoncé la disponibilité de deux connecteurs particulièrement réclamés par ses clients. Les services d’intégration de données Apache Kafka et Microsoft Azure Data Factory sont maintenant compatibles avec le data warehouse cloud.

Snowflake, c’est la licorne qui fait frémir les vendeurs de data warehouse et de data lake. Avec plus de 2 500 clients revendiqués dans le monde et près d’un milliard de dollars levés, l’éditeur poursuit sa croissance. Celle-ci résulte, entre autres, d’une « politique technologique » basée sur la multiplication des connecteurs vers les produits cloud disponibles sur le marché, selon Olivier Le Duc, responsable avant-vente, Europe du Sud, chez Snowflake.

C’est justement pour répondre aux demandes insistantes des clients que l’éditeur déploie les connecteurs pour les services d’ingestion de données Apache Kafka et Microsoft Azure Data Factory (ADF).

Apache Kafka et Azure Data Factory : deux briques d’ingestion de données populaires

Ainsi, le plug-in Kafka permet de streamer des données depuis des systèmes sources vers une table Snowflake en les lisant depuis des « topics » Kafka. Chacun des messages (transmis au format JSON ou Avro) contient une colonne à insérer dans la table. Habituellement, une application peut émettre vers plusieurs « topics » et s’abonner à plusieurs d’entre eux.

« Nous avions moyen de le faire en utilisant une brique supplémentaire. Maintenant, nous pouvons directement relier un topic Kafka à Snowflake pour alimenter un objet cible », explique Olivier Le Duc. « Il y avait un peu plus de configuration, il fallait faire transiter les fichiers par des “objects store” intermédiaires. La latence était un peu plus forte. Nous gagnons en performance et en facilité de mise en œuvre », ajoute-t-il.

En effet, les utilisateurs devaient auparavant passer par les services de la plateforme de Confluent, la société à l’origine de Kafka. La deuxième solution disponible repose sur un package Open Source Software (OSS).

Pour autant, elle est limitée au chargement des données dans le data warehouse cloud, selon la documentation fournie par l’éditeur. Si le connecteur n’est pas indispensable, « il facilite l’ajout d’un ou plusieurs abonnés qui publient des messages dans un topic vers une table Snowflake », peut-on lire.

Il est disponible depuis un entrepôt de données hébergé sur AWS ou Microsoft Azure. Le support de Google Cloud Platform est prévu pour le début de l’année 2020.

La deuxième partie de l’annonce concerne la disponibilité du connecteur Azure Data Factory, l’ETL de Microsoft. À l’aide de cet outil, il est maintenant possible d’ingérer des données en provenance d’un blob storage contenant une database SQL vers Snowflake.

Selon Jeremiah Hansen, sales engineer chez Snowflake, l’outil « apporte des fonctionnalités de procédure système SQL avec des paramètres dynamiques et des valeurs de retour ». Azure Key Vault vérifie la clé de sécurité, ADF appelle la plateforme serverless Azure Functions et transmet la base de données, le schéma et son nom. Functions inspecte la connexion à Snowflake au storage blob à partir de Key vault. Le FaaS lit le script SQL à partir de l’objet Blob et créer des variables Snowflake suivant les paramètres enregistrés. Enfin, il exécute chaque requête SQL dans le script et renvoi les valeurs obtenues via l’ETL.

« L’arrivée du connecteur Azure Data Factory fait suite à une forte demande de la part de clients existants. C’était un manque visible de notre côté. Nous n’avions aucun moyen pour se connecter depuis ADF à Snowflake. Il ne s’agit ni d’une amélioration ni d’une question de performance, c’est vraiment une question de connectivité pure et dure », assure le responsable avant-vente.

À noter que cet outil n’est pas encore intégré par Microsoft qui compte plus de 85 connecteurs associés à Azure Data Factory. Cela n’inquiète pas Olivier Le Duc. « Nous nous adoptons facilement aux tendances du marché et aux demandes des clients. Aujourd’hui, nous parlons d’Azure Data Factory, mais nous avons dans les tiroirs un connecteur vers AWS Glue et nous aurons des équivalents vers d’autres services similaires », affirme-t-il.

Des ajouts essentiels pour répondre aux besoins des clients

Les deux connecteurs ne sont pas payants, mais impliquent des coûts indirects avec l’utilisation de Snowpipe avec Kafka et la souscription aux services d’Azure pour ADF. Le spécialiste du data warehouse cloud poursuit également les développements consacrés au multicloud et à sa plateforme de partage de données.

En Europe du Sud, Snowflake France profiterait de la croissance la plus forte en termes de déploiement, malgré un certain retard par rapport à l’Europe du Nord (Royaume-Uni). Selon le responsable avant-vente, le modèle du paiement à l’usage satisfait les petites entreprises comme les grandes. « En France, notre plus petit client dispose d’une souscription annuelle de l’ordre de 5 000 dollars, tandis que le plus important paie 550 000 dollars », affirme-t-il. Monoprix, Accor Hôtels, Kiloutou ou encore Camaieu sont les têtes d’affiche mises en avant par l’éditeur sur ce territoire.

La relation de Snowflake avec Talend semble jouer un rôle important. Le spécialiste de l’intégration de données participe notamment aux projets d’Accor et de Kiloutou. « Talend a la particularité d’avoir été l’un des premiers acteurs/éditeurs à proposer son connecteur natif qui est en avance de phase par rapport aux restes du marché. Nous formons un binôme efficace », conclut Olivier Le Duc.

Pour approfondir sur Datawarehouse

Close