Devriez-vous héberger votre data lake dans le cloud ?

Sur site ou dans le cloud : où est le meilleur endroit pour déployer son lac de données ? Voici quelques éléments à considérer avant de se décider selon Andy Hayler.

par

Andy Hayler, Information Difference

Publié le: 31 janv. 2020

Les entreprises internationales disposent de nombreuses applications. L’une des sociétés avec qui j’ai récemment travaillé disposait plus de 600 applications IT documentées, dont son système ERP. Pour avoir une idée des performances de son organisation, il faut d’une manière ou d’une autre agréger les données. Le but est de résoudre les incohérences dans les classifications des produits, des fournisseurs, etc.

Cette tâche, loin d’être anodine, implique de traiter l’épineux problème de la qualité des données. Pour ce faire, les sociétés ont adopté le data warehouse. Maintenir ces entrepôts de données à jour dans un contexte de restructuration, d’acquisitions et d’autres changements est un défi majeur. Pourtant, c’est ce sur quoi les entreprises ont longtemps compté – avec des degrés de réussite variable – pour obtenir une vision unifiée de leurs activités.

Bienvenue aux lacs de données

L’avènement de ce qu’on appelle le Big Data a eu lieu au moment les volumes de données sont devenus trop importants et trop complexes pour que les bases de données sous licences commerciales puissent les gérer.

Ces données proviennent de compteurs intelligents, de capteurs, de web logs, de pylônes téléphoniques, des réseaux sociaux ou autres.

À titre d’exemple, un avion moderne génère 5 To de données par vol, tandis qu’une voiture autonome en produira 40 To par jour. Les bases de données traditionnelles n’ont jamais été conçues pour des volumes aussi importants, et les coûts peuvent rapidement augmenter en cas d’industrialisation.

L’arrivée d’Hadoop était bienvenue. Le framework open source distribué de traitement de données, a rapidement été perçu comme une option de stockage moins coûteuse. Il permet d’emmagasiner et de gérer de gros volumes d’informations dans des clusters déployables sur des machines considérées comme des commodités.

Toutefois, Hadoop prend en charge des données brutes, non transformées ou résumées à l’inverse de ce que nous trouvons souvent dans des data warehouses.

Le terme data lake décrit un entrepôt de données brutes. Pensez à la différence entre l’eau d’un vrai lac et celle contenue dans une bouteille d’Évian qui a été nettoyée, conditionnée et commercialisée pour faciliter sa consommation.

Au départ, les lacs de données étaient tous hébergés derrière le pare-feu de l’entreprise sur du matériel dédié. Cependant, le maintien d’un data lake en pleine expansion – l’ajout et la gestion de serveurs au fur et à mesure que les données affluent – nécessite beaucoup de ressources. Tout comme les fournisseurs ont pénétré d’autres marchés que les entreprises géraient en interne, il n’est pas surprenant que la même chose se soit produite avec les data lakes.

Les lacs de données dans le cloud

La gestion des lacs de données dans votre propre datacenter – les sauvegardes, la sécurité, les pannes matérielles – est un effort important. C’est pourquoi les services managés dans le cloud sont devenus une alternative à Hadoop.

Amazon, Microsoft et Google proposent des data lakes dans le cloud, mais il y a également des problématiques à prendre en compte avant de se tourner vers un de ces fournisseurs.

La bonne nouvelle, c’est que l’administration est le problème d’un autre et vous pouvez faire grossir vos instances ou les réduire sans avoir à investir dans du nouveau matériel. D’un autre côté, vous devez vous demander si vous voulez faire confiance aux opérateurs pour assurer la sécurité de vos données, dont certaines peuvent relever du secret industriel, et pour maintenir en activité les capacités de stockage allouées.

Bien que la majorité des fournisseurs renforcent la qualité de leurs services, même en 2019, il y a eu des pannes importantes : Google Cloud (le 2 juin) ou Microsoft (le 24 janvier). Mais vos datacenters internes sont-ils moins susceptibles de rencontrer des problèmes similaires ?

Au début du cloud, les entreprises étaient très nerveuses à l’idée de voir leur lac de données dans le cloud, en dehors du pare-feu de l’entreprise. Progressivement, les avantages économiques ont l’emporté sur ces inquiétudes.

De plus en plus d’applications se déplacent vers le cloud, y compris les data lakes. Selon un rapport d’IDC, le cloud computing a crû de près de 24 % en 2019 par rapport à 2018. D’après une enquête de 2017 de 451 Research, 90 % des entreprises utilisent certains types de services cloud.

Le défi : rendre les données utiles

Avant de décider de migrer votre data lake dans le cloud ou non, les entreprises se confrontent à un obstacle plus important : comment utiliser les données qui remplissent à un rythme croissant ces lacs.

Être un data analyst confronté à un tel volume de données, c’est comme essayer de boire de l’eau à la lance à incendie. Vous devez classer les données, étiqueter les jeux de données avec des métadonnées significatives qui les rendent identifiables plus tard et commencer à cartographier la façon dont elles sont liées à vos données d’entreprise. Si vous ne le faites pas, votre lac de données ressemblera plutôt à un marécage.

Les entreprises déploient leurs data lakes à côté de leurs entrepôts de données traditionnels. Ces informations sont pompées du ou des lacs vers l’entrepôt, selon les besoins.

Par exemple, si votre lac de données accueille des flux de réseaux sociaux contenant des commentaires de clients sur votre marque, comment pouvez les relier à votre base de données client ?

Vous pourriez vouloir accorder beaucoup plus d’attention à un client important qui se plaint, dans votre programme de fidélité, mais êtes-vous en mesure d’établir ce lien ?

Rassembler les informations en provenance du data lake, puis les combiner avec des ressources plus actuelles, offre de nombreuses possibilités, mais c’est aussi un défi majeur pour les responsables du data management qui sont particulièrement sollicités.

Andy Hayler est un consultant IT réputé, PDG d’Information Difference. Il est le fondateur de Kalido, une entreprise spécialisée dans le data management et le data warehousing, maintenant connue sous le nom de Magnitude Software.

Devriez-vous héberger votre data lake dans le cloud ?

Sur site ou dans le cloud : où est le meilleur endroit pour déployer son lac de données ? Voici quelques éléments à considérer avant de se décider selon Andy Hayler.

Bienvenue aux lacs de données

Les lacs de données dans le cloud

Le défi : rendre les données utiles

Pour approfondir sur Datawarehouse

Snowflake veut lui aussi faire de PostgreSQL un lakehouse ouvert

Ce qui distingue l’approche Data Mesh d’une architecture de données

Data Lakehouse : les subtiles nuances qui divisent les éditeurs

Amazon Security Lake : AWS s’engouffre dans la brèche du cyber data lake