Data Lake : attention aux risques d’indigestion de données

Les acteurs du Big Data poussent les entreprises à placer toutes leurs données dans un data lake. Mais dans de nombreux cas, cela n’est pas nécessaire. Risque d’indigestion de données programmé.

par

David A. Teich

Publié le: 04 juil. 2017

Click Stream, IoT, media sociaux… les sources de données se sont considérablement multipliées ces 10 dernières années. Si la collecte massive de données n’est certes pas forcément nouvelle, il apparait toutefois que celle-ci s’est très étendue et nous pouvons désormais capturer bien plus de données qu’auparavant.

Et cela n’est que le commencement : les entreprises sont désormais à la recherche de données pour améliorer leur prise de décision et surtout l’accélérer. Toutefois, ingérer ces données ne représente qu’une pièce du puzzle, comme une première étape. Ce qu’on oublie souvent : il existe une vraie différence entre donnée et information. La difficulté réside donc dans la façon de générer de l’information utile à partir de ces données entrantes, mais – et c’est là le problème – sans se laisser submerger par le processus d’ingestion de données qui à outrance, pourrait bien déboucher sur une vraie indigestion.

L’intérêt est ici de comprendre un phénomène : comment gérer ce qui important et pour qui cela est important. Une bonne compréhension de ces 2 questions peut justement aider à lutter contre cette indigestion. Ainsi, dans votre stratégie liée à la donnée – et à leur ingestion donc -, placer toutes les données ensemble, puis les diviser en petits clusters n’est pas un pré-requis. La création d’un lac de données (data lake) n’est pas la seule réponse.

Les entrepôts de données ont répondu positivement à ce problème à la fin des années 80. Une unique vue de toutes les informations de l’entreprise ? Parfait, répétaient alors les CxO de l’époque. Mais la complexité qui entourait l’extraction de données de tels systèmes s’est avérée bien plus importante que prévu.

Aujourd’hui encore, les adeptes de la première heure des entrepôts de données en font encore bon usage, supportant également d’autres solutions qui centralisent les données, comme le data lake - qui n’est finalement qu’un Data Store opérationnel. Mais trop souvent, le discours des acteurs du Big Data reste axé sur la centralisation des données, prétextant aller bien au-delà de l’entrepôt de données.

Mais changer le wording ne suffit pas. Surtout, cela minimise la meilleure partie des entrepôts de données : les méta-données.

Jusqu’alors tout le monde connaissait les méta-données, comme étant des données de données. Par exemple, si j’entre le chiffre 9 dans deux champs distincts, le premier peut l’interpréter comme un nombre entier, et le second un chiffre. Les méta-données donnent le contexte pour justement faire la distinction. Elles peuvent également aider les entreprises dans leur environnement Big Data et ainsi « contrôler » cette éventuelle indigestion en revenant à des processus plus efficaces d’ingestion de données.

Prenons l’exemple d’une auto qui transmet des données dans un contexte IoT (Internet of Things). Si on trouve des douzaines de machines dans une auto, il n’existe aucun moyen d’adapter la mécanique et le moteur sans avoir recours à un outil de diagnostic. Les autos transmettent donc les données opérationnelles directement aux constructeurs ; cela leur livre les bonnes informations qui les aident à améliorer les performances et la sécurité du véhicule.

Avec un Data lake, les éditeurs du monde Hadoop vous proposent de tout mettre dans un unique data store puis d’essayer de comprendre ce qui s’y cache. La question : pourquoi donc ?

Chaque donnée à sa place

Chez un constructeur d’automobile, certaines données collectées sont redirigées vers un département qui analyse les performances du moteur. D’autres sont placées entre les mains d’équipes en charge de l’habitacle et de son confort, d’autres d’équipes en charge de la sécurité. Dans ce contexte, pourquoi donc placer toutes les données dans un seul repository ? Les serveurs dits « Edge », placés au plus près des capteurs et dotés d’un peu d’intelligence pour comprendre les méta-données, peuvent router les données directement au bon département.

Certains capteurs peuvent également être préparés pour suivre certaines typologies de données. Les terminaux peuvent aussi avoir la capacité de couper leur transmission. Les serveurs Edge peuvent également rejeter des données pour éviter les transmissions inutiles et éviter d’alourdir les coûts liés au stockage.

Toutefois, cela n’est pas la règle avec toutes les données. Les données dites conversationnelles, issues des réseaux sociaux sont un exemple de données qui peuvent être centralisées dans un data store plus volumineux, ou encore dans Hadoop. Mais encore une fois, considérez ce data store comme votre vieil Operational Data Store.

Il ne s’agit toutefois pas d’en faire un simple receptable mais d’un endroit sur lequel les applications s’appuient pour analyser la syntaxe des réseaux sociaux afin d’identifier la bonne information. Aucun besoin ici d’intégrer toutes les données avec d’autres sources. Seules les informations identifiées comme pertinentes doivent être extraites et redirigées vers d’autres repositories de l’environnement Big Data.

Dans la plupart des cas, avec les avancées en matière de compute, de réseau, d’algorithmes analytiques et d’intelligence artificielle, et avec des coûts de stockage de plus en plus réduits, il n’est pas nécessaire de centraliser les données au même endroit.

Disposer d’une grande quantité de données n’est pas en soi une solution. Les données n’ont seules que peu d’intérêt – elles doivent être transformées en information utile.

Data Lake : attention aux risques d’indigestion de données

Les acteurs du Big Data poussent les entreprises à placer toutes leurs données dans un data lake. Mais dans de nombreux cas, cela n’est pas nécessaire. Risque d’indigestion de données programmé.

Chaque donnée à sa place

Pour approfondir sur Big Data et Data lake

Databricks aiguise ses outils de migration, d’ingestion et de transformation de données

Avec Lakeflow Connect, Databricks veut simplifier l’ingestion de données

Tableflow : Confluent travaille au rapprochement de Kafka et d’Iceberg

Amazon Security Lake : AWS s’engouffre dans la brèche du cyber data lake