Google répond à AWS et Kinesis avec Cloud Dataflow

A l’occasion de sa conférence Google I/O qui se tient actuellement aux Etats-Unis, la firme de Mountain View a présenté Cloud Dataflow, un service cloud de traitement des données en mode batch ou en temps réel qui permet d’effectuer des analyses complexes à grande échelle ou encore d’intégrer des flux de données en temps réel dans des applications.

par

Cyrille Chausson, Rédacteur en Chef

Publié le: 26 juin 2014

A son tour, Google a décidé que MapReduce, qu’il a pourtant initié il y a plusieurs années, n’était plus une technologie adaptée au traitement temps réel des données en volume. A l’occasion de sa conférence Google I/O qui se tient actuellement aux Etats-Unis, la firme de Mountain View a présenté Cloud Dataflow, un service cloud de traitement des données en mode batch ou en temps réel qui permet d’effectuer des analyses complexes à grande échelle ou encore d’intégrer des flux de données en temps réel dans des applications. Si ce service vient compléter les outils d’analyse et de traitement des données de la Google Cloud Platform - qui comprend notamment BigQuery, notamment -, ce service constitue également la réponse à un service identique développé par AWS, nommé Kinesis. Lancé l’année dernière lors de la conférence Re:Invent d’Amazon, ce service a pour ambition de décloisonner les traitements complexes des données en volume en temps réel dans le cloud et de réinjecter les flux dans des applications, avait expliqué Amazon à l’époque.

Google Dataflow vise quant à lui à « créer des flux de données qui consomment, transforment et analysent des données à la fois en mode batch et en streaming », explique Google dans un billet de blog, soulignant qu’il s’agit là « d’un successeur à MapReduce ». MapReduce, technologie clé de la sphère Hadoop, est souvent pointé du doigt pour sa complexité ainsi que pour son traitement en mode batch, qui éloigne la technologie des traitements en temps réel - ou quasi temps réel - des données en volume.

« Il y a 10 ans, Google a inventé MapReduce pour traiter de grandes quantités de jeux de données en utilisant une infrastructure distribuée. Depuis, l’augmentation des terminaux et des informations nécessitent des pipelines analytiques plus adaptés - ils restent difficiles à créer et à entretenir », commente encore Google. Un problème que Google entend ainsi résoudre avec Cloud Dataflow.

Ce service s’adosse à des technologies maison, comme FlumeJava (traitement parallélisme de données) ou encore MillWheel (applications de traitements de données à faible latence ).

Google répond à AWS et Kinesis avec Cloud Dataflow

Pour approfondir sur Services Cloud

Cloud : GCP lance des VMs ARM plus économiques, plus élastiques

Flink se pare d’un client SQL : un clin d’œil aux data scientists

De l’ETL en batch aux flux tendus de données : Talend présente Data Streams

Hadoop ou la force d’un écosystème