Definition

Apache Flink

Apache Flink est une plateforme de traitement distribué des données qui fonctionne dans le cadre d'applications de Big Data, et implique essentiellement l'analyse de données stockées dans des clusters Hadoop. Grâce à des modes de traitement combinés sur disque et en mémoire (In-Memory), Apache Flink gère à la fois des tâches en flux et par lots. Le flux de données reste la mise en oeuvre par défaut, tandis que les traitements par lots constituent des versions dédiées à des cas spéciaux d'applications en flux.

Flink est conçu comme un substitut à MapReduce, le moteur de traitement par lots qui était associé au système de fichiers HDFS (Hadoop Distributed File System) dans la mise en oeuvre initiale d'Hadoop. Le logiciel Flink est open source et conforme aux dispositions de gestion des licences de The Apache Software Foundation. Son développement est essentiellement conduit par DataArtisans GmbH, une startup installée à Berlin.

Les applications Flink en flux sont programmées via une API DataStream qui utilise Java ou Scala. Ces langages, ainsi que Python, permettent également une programmation sur une API DataSet complémentaire pour le traitement de données statiques. Flink peut se déployer en mode autonome sur une machine virtuelle Java (JVM) unique ou dans des clusters Hadoop à technologie YARN, ou encore sur des systèmes en Cloud.

L'environnement d'exécution de base de Flink prend en charge une architecture en flux organisée en pipelines. Il intègre en outre une méthode de traitement itératif des données, destinée à l'apprentissage machine et à diverses applications analytiques. Des bibliothèques et des API dédiées sont mises à disposition pour le développement de programmes d'apprentissage machine, ainsi que pour divers usages, notamment la gestion des chaînes et le traitement des éléments graphiques. Une autre API se focalise sur l'intégration d'applications Hadoop.

Flink se présente comme un dérivé de Stratosphere, un projet entamé en 2009 dans trois universités allemandes : l'université technique (TU) de Berlin, la Humboldt University de Berlin et le Hasso Plattner Institut. La technologie Flink devient par la suite un projet d'Apache Incubator en avril 2014, puis un projet prioritaire à la fin de la même année ; après neuf diffusions antérieures, la solution Apache Flink 1.0.0 est lancée en mars 2016. Flink a alors officiellement rejoint d'autres infrastructures de l'écosystème Hadoop, telles que Spark, Storm et Samza, dans la course à la gestion en flux du Big Data.

 

Cette définition a été mise à jour en avril 2018

Pour approfondir sur Base de données

Close