Definition

Apache Kafka

Kafka est un système de messagerie de type publication/abonnement conçu pour remplacer les courtiers de message traditionnels.

Initialement créé et développé par LinkedIn, puis passé en open source en 2011, Kafka est actuellement développé par la Apache Software Foundation. Il vise à exploiter les nouvelles infrastructures de données rendues possibles par les clusters massivement parallèles.

Les courtiers (ou brokers) de messages sont une forme de middleware qui traduisent les messages dans un langage généralement plus courant. Ils peuvent également servir à dissocier les flux de données du traitement et à placer les messages non envoyés en mémoire tampon.

Apache Kafka constitue une amélioration par rapport aux courtiers de messages traditionnels, notamment en termes de débit, de partitionnement intégré, de réplication, de latence et de fiabilité.

Kafka peut être utilisé dans plusieurs domaines : messagerie, suivi des activités du Web en temps réel, surveillance des indicateurs opérationnels des applications distribuées, agrégation des logs d'un grand nombre de serveurs, sourçage des événements consistant à consigner et à organiser les changements d'état dans une base de données, et journaux de validation (commit logs) où sont consignées les opérations des systèmes distribués qui synchronisent les données et restaurent les données des systèmes défaillants.

Cette définition a été mise à jour en juillet 2016

Pour approfondir sur Big Data et Data lake

Close