Definition

Big Data

Le terme Big Data décrit des ensembles de très gros volumes de données – à la fois structurées, semi-structurées ou non structurées – qui peuvent être traitées et exploitées dans le but d’en tirer des informations intelligibles et pertinentes.

3V, 4V, 6V

Les Big Data sont caractérisées par la règle des « 3V » : le Volume (les Big Data désignent de très gros volumes de données brutes), la Variété (un ensemble Big Data est typiquement composé de données hétérogènes, structurées ou non) et la Vitesse (ou Velocité, les données Big Data sont générées à « grande vitesse » voire en continue, ce qui implique également de les traiter rapidement, voire en temps réel).

Bien qu’il n’y ait pas de définition précise du volume minimum du Big Data, le terme est souvent utilisé lorsque l’on parle de petabytes et d’exabytes de données, des volumes qui posent de nouveaux défis d’intégration et de traitement.

Des éditeurs ajoutent un quatrième V : la Véracité (Veracity), qui renvoie à la notion de qualité imparfaite des données. Par essence, les données Big Data comportent du « bruit », des informations incomplètes, en double voire incohérentes (deux versions différentes d’une même donnée).

Certaines définitions ajoutent deux autres V.

La Volatilité (Volatility) est une notion connexe de la Vitesse. Il s’agit de la « durée de vie » des données générées, autrement dit, pendant combien de temps elles sont valides. En fonction des domaines, la volatilité des Big Data diffère beaucoup. Ce qui tend à en faire un élément important à prendre en compte d’un point de vue opérationnel, mais qui ne les définit pas d’un point de vue théorique.

Dernier « V », les Big Data, pour être exploitables, doivent être « propres ». C’est la notion de Validité (Validity). Mais là encore, ce V renvoie en fait plus à une étape préliminaire de la gestion des Big Data qu’à leur définition.

Les caractéristiques du big data sont généralement décrites à l'aide de mots commençant par

Big is not bigger. Big is different

Parce que faire de l’analytique Big Data dans une base relationnelle traditionnelle prend beaucoup trop de temps et donc trop d’argent, de nouvelles approches de stockage et d’analyses ont émergé.

Ces approches reposent moins sur la qualité ou sur les schémas des données (qui décrivent en amont les données d’une base). A la place, des données brutes – augmentées de métadonnées – sont agrégées telles quelles et stockées dans des Data Lake. Des schémas récurrents (patterns) sont ensuite repérés avec des outils de type Machine Learning (apprentissage statistique) et d’Intelligence Artificielle (AI) qui s’appuie sur des algorithmes complexes de type prédictifs ou prescriptifs.

Au final, comme le note Nicholas Nassim Taleb dans son livre « Antifragile », « Big is not bigger ; Big is different » - « Gros ne signifie pas plus gros ; Gros c’est différent ». Autrement dit, le changement d’échelle n’implique pas les mêmes outils en plus puissants, mais d’autres outils - du fait même que le changement d’échelle fait aussi totalement changer la logique sous-jacente.

Le Big Data n’appelle donc pas des bases de données plus importantes ou des disques durs plus gros, mais des technologies différentes : SSD, Hadoop, MapReduce, clusters de serveurs, In-Memory, bases NoSQL, etc. Le Big Data est également souvent associé au Cloud pour sa puissance de traitement et ses capacités de stockage qualifiées « d’infinies » par les services marketing des prestataires.

Des Datas et des Hommes

La demande pour l’analytique Big Data ne cesse de progresser : dans le marketing pour la détection de signaux faibles pour les tendances d’achats, ou dans la banque pour repérer des fraudes en temps réel par exemple. Il n’en reste pas moins qu’il y a actuellement - encore - une pénurie de data scientists (expert en statistique) et de professionnels qui possèdent suffisamment d’expérience des environnements distribués open source nécessaires à l’exploitation des Big Data.

Une des réponses des éditeurs est, de plus en plus, de proposer des solutions clefs en main, par exemple des appliances équipées de distributions Hadoop prêtes à l’emploi.

Par opposition au Big Data, on parle quelque fois de « Small Data », des données dont la volumétrie et les formats (souvent structurés) les rendent compréhensibles et utilisables par le commun des mortels. Par exemple dans un cadre de BI en self-service. Un aphorisme résume l’idée que « le Big Data est taillé pour les machines, le Small Data est taillé pour les hommes ».

Big Data en Bon François

En France, la Commission générale de terminologie et de néologie (en lien avec l’Académie Française) a statué en 2014 que l’expression anglaise Big Data se traduisait officiellement par « Megadonnées ».

Parmi les autres terminologies francophones, désormais non officielles, on trouve également les expression « données volumineuse » et « données massives ».

Cette définition a été mise à jour en août 2016

Pour approfondir sur Big Data et Data lake

Close