photobank.kiev.ua - Fotolia

Lacs de données Hadoop : il ne faut pas renier les concepts de base de l'ETL

Joe Caserta explique pourquoi la nouvelle génération de développeurs, adeptes des clusters Hadoop et autres technologies Big Data, pourrait bien avoir besoin de quelques notions clés d’ETL.

par

Jack Vaughan, News and Site Editor

Publié le: 19 août 2015

Si l’arrivée de nouvelles technologies crée une rupture dans l’écosystème, les compétences quant à elles sont parfois oubliées sur le bord de la route. Et les lacs de données Hadoop pourraient être de ces technologies-là, soutient Joe Caserta, fondateur et président de Caserta Concepts. Selon lui, les avancées et gains induits par la manipulation de données dans Hadoop sont plus difficiles à palper si les équipes dédiées à la gestion des données oublient les méthodes de base de préparation des données. Celles que l’on applique que ce soit pour les technologies émergentes comme les lacs de données Hadoop ou pour les entrepôts de données relationnels bien en place. Nos confrères et partenaires de SearchDatamanagement (groupe TechTarget, propriétaire du MagIT) se sont entretenus avec cet expert sur la question.

Où en sommes-nous vraiment avec le Big Data. Il semble que nous ayons passé la première étape ?

Joe Caserta : L’industrie a été immergée dans le Big Data et les technologies émergentes associées. Maintenant que cette première étape de la découverte est derrière nous et que les systèmes ont été déployés, nous sommes confrontés aux mêmes problèmes fondamentaux qu’avec l’ETL et l’entrepôt de données – tout n’a donc pas vraiment changé.

La réalité est que les principes fondamentaux de l’entrepôt de données et de l’ETL sont toujours applicables. Nous ne devrions pas perdre cela de vue. Nous rencontrons souvent des personnes qui ne connaissent pas les bases en matière de gestion des données à des fins d’analytique.

Comme le dit la chanson dans le film Casablanca « les choses fondamentales restent, même si le temps passe ». Comme cela s’applique-t-il dans le data management et l’analytique ?

Joe Caserta : Les projets sont certes baptisés data management ou d’analyse de données, mais au fond, il s’agit encore d’ETL et d’entrepôt de données. Vous pouvez considérer ces technologies comme émergeantes ces dernières années. La vérité est que les individus qui essaient de résoudre ces problèmes sont eux-aussi parfois sur le devenir.

Il semblerait que même si vous disposez d’un lac de données Hadoop, lorsque vous voulez manipuler les données, vous rencontrez les mêmes problèmes.

Joe Caserta : c’est vrai. Vous devez vous assurer de la qualité des données. Tout cela est encore largement applicable. Nombreuses sont les personnes qui n’ont pas les bases de l’ETL et de l’entrepôt de données. Avec Hadoop, on parle d’ELT au lieu d’ETL, mais c’est juste de la sémantique. Tout est question de transformation. Parfois, on entend les éditeurs dire : ‘faite le avec ma technologie plutôt qu’avec une autre’. Mais au final, les données sont là, vous devez les préparer pour pouvoir les utiliser. Il s’agit d’extraction et de transformation (le E et le T d’ETL, ndlr), que vous les chargiez dans la base cible pour les transformer, ou les transformiez selon une autre méthode. Ce que vous devez savoir est comment les transformer.

Vous devez poser vos données dans le processus, et les interroger pour connaître leur qualité, leur exactitude et leur intégrité. Vous devez également être capable de créer des niveaux de confiance dans l’intégrité des données. Cela est plus important que jamais. Avec un entrepôt de données, vous tentiez bien d’obtenir un niveau de qualité de 100. Avec un lac de données, vous savez que ce ne sera pas 100 – mais de combien alors ? 50% est-il satisfaisant ? Doivent-ils avoir confiance dans 85% ?

Selon vous, si l’on va au-delà de l’exploration, on sera confronté à des processus de gestion traditionnels ?

Joe Caserta : Oui c’est ça. Les entreprises commencent à utiliser les Big Data, mais ils doivent revenir à des standards pour avoir une gouvernance de la donnée. Des processus doivent être mis en place et ils s’apparentent à ceux des méthodes traditionnelles. Bien sûr, nous assistons évidemment à une évolution et les méthodes traditionnelles ne sont pas toutes applicables. Mais pour beaucoup, ce sont les mêmes.

Il reste du chemin à parcourir. Les spécialistes doivent apprendre comment créer des spécifications des exigences pour cibler un besoin métier, et cela en retour doit être traduit techniquement. Depuis des années, des processus ont été mis en place pour cela, et à vrai dire, c’est un combat de tous les instants.

Mais pour certains spécialistes du Big Data, il est nécessaire de refondre les principes de base de la conception d’entrepôt de données. Alors qu’ils fonctionnent même pour les technologies émergentes. Ils devraient être agnostiques et agiles. Par exemple, une des méthodes applicables est le model storming, qui consiste à identifier les dimensions métiers, puis à commencer à intégrer la notion de modélisation dans la conversation.

Traduit et adapté par la rédaction

Lacs de données Hadoop : il ne faut pas renier les concepts de base de l'ETL

Joe Caserta explique pourquoi la nouvelle génération de développeurs, adeptes des clusters Hadoop et autres technologies Big Data, pourrait bien avoir besoin de quelques notions clés d’ETL.

Pour approfondir sur MDM - Gouvernance - Qualité

Snowflake veut lui aussi faire de PostgreSQL un lakehouse ouvert

Databricks aiguise ses outils de migration, d’ingestion et de transformation de données

AWS unifie IA, analytique et gouvernance de données… dans SageMaker

Ce qui distingue l’approche Data Mesh d’une architecture de données