Definition

Data lake (lac de données)

Un lac de données (Data Lake) est un référentiel de stockage qui conserve une grande quantité de données brutes dans leur format natif jusqu'à ce qu'elles soient nécessaires.

Là où un entrepôt de données hiérarchisé consigne les données dans des fichiers ou des dossiers, un lac de données, en revanche, présente une architecture à plat.

Chaque donnée d'un lac se voit attribuer un identifiant unique et est marquée au moyen d'un jeu de balises de métadonnées étendues. Lorsqu'une question métier se présente, il suffit d'interroger le Datalake pour y rechercher des informations pertinentes. Il est alors possible d'analyser l'ensemble de données plus restreint ainsi obtenu pour répondre à la question métier.  

Le terme de lac de données est souvent associé au stockage objet et Hadoop. Dans un tel scénario, les données de l'entreprise sont d'abord chargées sur la plateforme Hadoop, puis on leur applique des outils d'exploration de données et d'analytique, à l'emplacement qu'elles occupent sur les noeuds d'ordinateurs génériques du cluster Hadoop

A l'instar du terme Big Data, le terme Data Lake est parfois employé abusivement comme simple étiquette marketing d'un produit qui prend en charge Hadoop. Pourtant, l'expression est de plus en plus acceptée pour décrire tout réservoir de données de grande envergure dans lequel aucune exigence de schéma et de données n'est définie avant interrogation des données.

Cette définition a été mise à jour en août 2015

Pour approfondir sur Big Data et Data lake

Close