Conseil

Intéressez-vous aux « Wide Data », et pas seulement au « Big Data »

Pour tirer le maximum de valeur de l’analyse des Big Data, les professionnels ont intérêt à intégrer à la fois l'étendue des données, pas seulement leur volume.

par

David A. Teich, Teich Communications

Publié le: 15 juin 2015

Le nom de Big Data est quelque peu trompeur. Certes, le volume de données issues du Web, des centres d'appel et d'autres sources de données peut être colossal. Mais le principal atout de ces données ne réside pas dans leur quantité. Ne le cherchez pas non plus dans les connaissances métier que l'analyse de ces données permet d'engranger, telles que les tendances et les relations présentant un intérêt.

Pour obtenir de véritables informations décisionnelles à l'aide du Big Data, les entreprises ainsi que les fournisseurs de solutions de BI doivent s'efforcer d'intégrer et d'analyser un large éventail d'informations ; en clair, les données élargies, ou « Wide Data ».

La réussite d'une entreprise dépend de sa capacité à analyser aussi bien le Big Data que les données des systèmes d'entreprise traditionnels, et ce de manière cohérente et coordonnée. De nombreux fournisseurs y travaillent : leur objectif est de développer des produits capables de proposer un accès SQL aux référentiels Hadoop et aux bases de données NoSQL. La voie qu'ils emprunteront, notamment en ce qui concerne les technologies SQL-on-Hadoop, a son importance, car la plupart des gens connaissent SQL bien mieux que Hadoop.

Hadoop est une technologie puissante qui permet de gérer d'importants volumes de données non structurées. En revanche, ce n'est pas le choix idéal pour l'exécution rapide d'applications analytiques, en particulier celles qui combinent des données structurées et non structurées. A l'inverse, SQL a depuis longtemps fait la preuve de sa capacité à rendre des sources de données hétérogènes accessibles au moyen d'appels quasi identiques.

L'ère du Big Data n'est pas qu'une question de quantité

De plus, les analystes métier qui réalisent le plus gros du travail pour communiquer les données analytiques aux divers dirigeants et responsables sont des utilisateurs très chevronnés du langage SQL.

Enfin, la plupart des utilisateurs attendent des évolutions technologiques, pas des révolutions.

Il s'agit donc d'intégrer intelligemment les dernières technologies dans les écosystèmes informatiques pour en tirer le maximum de valeur métier, le plus rapidement et le plus simplement possible. Ainsi, les informations issues de clusters Hadoop, de systèmes NoSQL et d'autres nouvelles sources de données seront fusionnées avec les données des bases de données relationnelles et des entrepôts de données pour offrir une vue globale des clients, des tendances du marché et de l'activité métier.

Par exemple, les données de ressenti client qui peuvent être glanées sur les réseaux sociaux et le Web constituent une véritable mine d'informations, à condition toutefois de ne pas les cloisonner et les isoler des données relatives aux clients potentiels et autres informations marketing.

Tenir compte des données des capteurs

L'Internet des objets doit également être pris en compte. Les produits et équipements industriels sont truffés de capteurs et autres dispositifs de suivi. Ces appareils peuvent, via Internet, renvoyer vers les systèmes de l'entreprise les données opérationnelles recueillies.

Cependant, beaucoup sont persuadés que l'Internet des objets ne sert qu'à faciliter le contrôle des équipements, comme avec les capteurs à distance qui surveillent les pipelines pétroliers ou qui compilent des données de maintenance sur les camions, tracteurs et autres véhicules.

Sur le même sujet

Or, si ces aspects sont importants, des utilisations bien plus décisives sont en jeu. Chercher des tendances dans d'énormes volumes de données enregistrées par les capteurs permet de mieux identifier et comprendre les problèmes de contrôle qualité, les différences de performance d'un même équipement en fonction de son implantation géographique et d'autres facteurs cruciaux pour la planification à long terme. Les informations générées par l'Internet des objets sont structurées et, avec le temps, leur volume dépassera largement celui des données du Web. Répétons-le, en se focalisant sur les seules données non structurées, les organisations risquent de se priver d'une forme précieuse d'information métier.

Par ailleurs, une architecture flexible est de rigueur. Si les entrepôts de données n'ont jamais atteint leur potentiel théorique, c'est en partie parce qu'il est difficile d'exploiter des données en temps réel lorsqu'il faut les manipuler avant de les placer dans des schémas en étoile.

Cela dit, on ne gère pas les données historiques ou géospatiales, ou toute autre information à évolution lente, avec la même urgence que les demandes de données en temps réel. Une plateforme intelligente d'informatique décisionnelle (BI) et d'analytique est en mesure de traiter aussi bien les données en temps réel que les données à plus forte latence. Elle combine pour cela des entrepôts de données et des systèmes de Big Data en fonction des besoins, en recourant si nécessaire à un traitement In-Memory.

Régir le flux du Big Data

Evaluer la quantité de données qui circulent entre la source et l'utilisateur, et le chemin qu'elles empruntent, constitue un autre élément essentiel de la réflexion. Les théoriciens qui ont conçu les entrepôts de données s'émouvaient de la prolifération des Datastores aux niveaux des différents services et départements, dénonçant l'absence d'une « version unique de la vérité » et la difficulté d'assurer une gouvernance appropriée des données. Ahhh, le bon vieux temps !

Aujourd'hui, les appareils mobiles et les outils de BI en libre-service ont radicalement changé la portée des informations transmises. Une fois que des données ont atteint un smartphone, il est en effet difficile de contrôler ce qu'il en advient : sont-elles consultables uniquement par les personnes autorisées ? Existe-t-il un journal d'audit ? Pour être efficaces, l'informatique décisionnelle et la gestion du Big Data ne se résument pas à collecter et à traiter des informations. Il est essentiel de régir également l'utilisation d'ensembles de données très hétérogènes par des utilisateurs professionnels disséminés géographiquement.

C'est indéniable, le volume des données est une question technique préoccupante. Mais le véritable problème est le traitement des Wide Data : comment les rassembler à partir de sources diverses, puis les traiter et les mettre à la disposition d'un public extrêmement hétéroclite qui devra les analyser en vue de prendre des décisions ?

Pour prendre en charge les environnements de données élargies, les fournisseurs doivent concentrer leurs efforts sur les points suivants :

Fournir un accès aux données structurées et non structurées et permettre leur intégration.
Faire en sorte que des ensembles de données différents puissent être administrés différemment, selon les conditions de latence.
Prendre en charge des modèles solides de gouvernance des données.

La prochaine génération de technologies d'informatique décisionnelle et d'analytique ne pourra pas ignorer le fait que l'étendue et la complexité des données irriguant les systèmes d'entreprise sont des facteurs plus importants que leur volume. L'ère du Big Data n'est pas qu'une question de quantité. La diversité des données compte également. Les responsables de systèmes d'analytique et de BI ont tout intérêt à travailler avec des fournisseurs qui en sont conscients.

Intéressez-vous aux « Wide Data », et pas seulement au « Big Data »

Pour tirer le maximum de valeur de l’analyse des Big Data, les professionnels ont intérêt à intégrer à la fois l'étendue des données, pas seulement leur volume.

Tenir compte des données des capteurs

Sur le même sujet

Régir le flux du Big Data

Pour approfondir sur Outils décisionnels et analytiques

Analytique Big Data

Solutionary choisit MapR pour ses analyses Big Data en temps réel

Allstate Insurance fait du Data Lake Hadoop sa base principale pour le Big Data

Big Data : liste de contrôles pour la mise en oeuvre de projets analytiques