Definition

Analytique Big Data

L'analytique du Big Data est le processus qui consiste à examiner des ensembles de données volumineux contenant des types de données hétérogènes pour découvrir des schémas cachés, des corrélations inconnues, les tendances du marché, les préférences des utilisateurs et d'autres informations exploitables.

Les résultats analytiques peuvent apporter un gain d'efficacité du marketing, de nouvelles opportunités de recettes, un meilleur service clients, une amélioration de l'efficacité opérationnelle, des avantages concurrentiels sur les entreprises rivales et d'autres bénéfices métier.

L'analytique Big Data a pour principal objectif d'aider les entreprises à prendre des décisions plus avisées en permettant aux data-scientists, spécialistes en modélisation prédictive et autres professionnels du domaine à analyser de grands volumes de données transactionnelles, ainsi que d'autres formes de données encore inexploitées par les programmes conventionnels d'informatique décisionnelle (Business Intelligence).

Il peut s'agir notamment des données suivantes : logs de serveurs Web et données issues des parcours de navigation sur Internet, contenu et rapports d'activité des réseaux sociaux, texte extrait des e-mails des clients et de leurs réponses aux sondages, relevés détaillés des appels par téléphone mobile et données machine capturées par des capteurs connectés à l'Internet des objets.

Certains associent exclusivement le Big Data aux données non structurées et semi-structurées de ce type, mais les sociétés de conseil comme Gartner Inc. et Forrester Research Inc. considèrent également les transactions et autres données structurées comme des composants à part entière des applications d'analytique Big Data.

Le Big Data peut être analysé à l'aide des outils logiciels couramment utilisés dans le cadre de disciplines d'analytique avancée, telles que l'analytique prédictive, l'exploration de données ou data mining, l'analytique textuel et l'analyse statistique. Les logiciels classiques de BI et les outils de visualisation des données peuvent également jouer un rôle dans le processus d'analyse, mais les données semi-structurées et non structurées peuvent ne pas être adaptées aux entrepôts de données traditionnels reposant sur des bases de données relationnelles

Par ailleurs, ces entrepôts sont parfois incapables de répondre aux exigences de traitement imposées par des ensembles de Big Data qui doivent être actualisés fréquemment, voire en continu. C'est par exemple le cas des données en temps réel sur le fonctionnement des applications mobiles ou des pipelines de pétrole ou de gaz.

En conséquence, nombre d'entreprises cherchant à collecter, traiter et analyser des Big Data se sont tournées vers de nouvelles technologies, dont Hadoop et des outils apparentés tels que YARN, MapReduce, Spark, Hive et Pig, ainsi que les bases de données NoSQL. Ces technologies forment la base d'une infrastructure logicielle open source qui prend en charge le traitement d'ensembles de données volumineux et hétérogènes sur des systèmes organisés en clusters.

Dans certains cas, des clusters Hadoop et des systèmes NoSQL sont utilisés comme plateformes et zones de transit pour les données, avant le chargement de ces dernières dans un entrepôt de données en vue de leur analyse, souvent sous une forme condensée plus compatibles avec des structures relationnelles. Toutefois, les fournisseurs de Big Data mettent de plus en plus en avant le concept de lac de données, qui sert de référentiel central pour les flux entrants de données brutes d'une organisation

Dans des architectures de ce type, il est alors possible de filtrer des sous-ensembles des données pour les analyser dans des entrepôts et bases de données analytiques, ou de les analyser directement dans Hadoop à l'aide d'outils d'interrogation par lots, de logiciels de traitement de flux et de technologies SQL on Hadoop qui exécutent des requêtes interactives ad hoc écrites en SQL.

Obstacles

Au nombre des obstacles que risquent de rencontrer les entreprises conduisant des projets d'analytique Big Data figurent le manque de compétences analytiques en interne et le coût élevé de l'embauche de professionnels expérimentés dans le domaine.

La quantité et la diversité des informations généralement impliquées peuvent également poser des problèmes, notamment au niveau de la qualité des données et de leur cohérence.

En outre, l'intégration de systèmes Hadoop et d'entrepôts de données peut s'avérer difficile, même si plusieurs fournisseurs proposent aujourd'hui des connecteurs entre Hadoop et les bases de données relationnelles, ainsi que d'autres outils d'intégration des données capables de prendre en charge le Big Data.

Cette définition a été mise à jour en juillet 2016

Pour approfondir sur Big Data et Data lake

Close