Sergej Khackimullin - Fotolia

Bien choisir son Data Warehouse nouvelle génération

L'entrepôt de données n'est pas une nouveauté. Pourtant, il évolue rapidement, avec le cloud et au fur et à mesure que les besoins analytiques se complexifient. Alors comment choisir le bon data warehouse ? Chris Foot vous propose sa méthodologie.

Les entrepôts de données sont des plateformes dédiés à l’ingestion, le stockage et le traitement de données. Quand j’ai commencé à concevoir des data warehouse il y a trente ans, l’objectif était d’améliorer les performances des systèmes opérationnels en les déchargeant de certains workloads transmis à ces plateformes. 

Suite de l'article ci-dessous

Au fur et à mesure que les systèmes de rapport ont évolué, les utilisateurs ont réalisé qu'ils étaient capables d'utiliser les nouveaux environnements pour transformer les données brutes en indicateurs clés que tous les collaborateurs en entreprise pourraient utiliser pour prendre de meilleures décisions. C’est toujours le cas aujourd’hui, si ce n’est encore plus.

Les entrepôts de données modernes améliorent les pratiques BI en renforçant la qualité et la cohérence des données, en permettant aux utilisateurs de mieux comprendre la signification des données, en favorisant une culture data driven et en facilitant l’analyse des historiques de données et les capacités de prévision.

La jungle du datawarehousing

Avant de commencer à évaluer les différentes plateformes, il est important de comprendre les différentes formes d’intégration Big Data. Un entrepôt de données moderne est l’une des options qui peut correspondre aux besoins de votre organisation.

Les éditeurs de toutes tailles capitalisent sur l’intérêt pour la BI et l’analytique pour proposer une grande variété de produits Big Data. Ce marché particulièrement compétitif oblige ses participants à commercialiser de nouveaux produits et améliorer leurs offres existantes.

Fréquemment, ces éditeurs proposent de nouvelles fonctionnalités d’intégration de données, de gestion de métadonnées, d’analytique ou de gouvernance. Actuellement, l’attention est portée sur les outils augmentés à l’aide du machine learning afin de faciliter la collecte et l’analyse des données de l’entreprise.

Pour ne pas se tromper et choisir la bonne plateforme Big Data pour son organisation, la DSI doit s’appuyer sur une analyse détaillée et motivée concernant les différentes offres sur le marché. En raison de la grande variété d’architectures et d’infrastructures de données disponibles dans le cloud et sur site, l’équipe chargée de cette évaluation doit élargir son analyse aux data warehouses de dernières générations.

Non seulement, les évaluateurs doivent comprendre les avantages de ce type de plateformes, mais également bien assimiler les subtilités leurs architectures. Choisir les bonnes briques de l’écosystème qui comprend la plateforme, le(s) serveur(s), l’architecture de stockage, l’option d’infrastructure, le data store et les outils associés est essentiel au succès de ce déploiement.

Quelques conseils pour évaluer un data warehouse

Suivez une procédure d’évaluation standardisée. Cela facilitera le processus de sélection. Pour cela, il convient de choisir la bonne équipe capable de juger le produit, réaliser une étude approfondie des besoins et établir des critères précis liés à ces besoins. Ces critères permettent de réduire le nombre de prétendants et faciliter la réalisation d’un benchmark complet auprès de quelques éditeurs.

Comprendre les besoins de votre entreprise. Le data warehouse doit-il répondre à quelques besoins particuliers ou faire preuve de polyvalence en offrant davantage de fonctionnalités ?

Déterminez qui utilisera l’entrepôt. Seront-ils des citizen data scientists, des responsables, des équipes commerciales, des membres de l’IT ou faudra-t-il gérer une combinaison de ces utilisateurs ? Cela permet non seulement de définir les outils nécessaires à chacun et de mieux gérer les accès.

Produit unique ou assemblage ? Cherchez-vous un éditeur capable de gérer le cycle de vie de votre outil de traitement de données de la collecte à la visualisation des données ou préférez-vous choisir les meilleures briques disponibles sur le marché ?

Attention aux capacités analytiques. Quelles sont les fonctionnalités de data cleansing et d’analytique avancées proposées par le ou les éditeurs ?

Evitez les surprises budgétaires. Il faut évaluer minutieusement le processus de facturation proposé par l’éditeur. Les modèles économiques sont nombreux, cela peut aller de l’achat de logiciels et de matériels à de la facturation du stockage et du compute sur le cloud. Certains éditeurs ont leurs propres unités de mesure, parfois basées sur une consommation à la seconde, à la minute ou à l’heure.

Estimez le volume de stockage initial et futur liés aux données au repos et aux workloads. Il y a-t-il possibilité d’adapter à la hausse ou à la baisse les capacités de stockage et de calcul ?

Se renseigner sur l’éditeur, consultez les évaluations sur le web et les forums consacrés aux produits qui vous intéressent. La plateforme Gartner Peer Review est un bon moyen de se faire un premier avis sur les différents éditeurs. Les utilisateurs y donnent généralement des indices sur la pertinence du produit et le support – technique ou commerciale- apporté par le fournisseur.

Choisissez votre mode de déploiement : dans le cloud, sur site ou les deux ?

N’oubliez pas de vous renseigner sur l’interface d’administration. Les responsables retrouvent-ils toutes les options dont ils ont besoin ou doivent-ils coupler le data warehouse à leurs outils de surveillance ?

Quels formats de données la plateforme peut-elle ingérer ? Généralement, cela vous donne une indication sur les traitements de données possibles.

Justement, l’entrepôt prend-il en charge les traitements en lot ET en temps réel ?

Comment gère-t-il les workloads ? Il y a-t-il un système de fil d’attente, de pub/sub, de calcul distribué ?

Enfin, ce data warehouse est-il conforme aux règles de votre entreprise, de votre secteur et aux régulations gouvernementales ?

Pour approfondir sur Datawarehouse

Close