Les architectes Big Data, très sollicités en 2014

Les architectures Big Data ont été au programme de nombreuses entreprises en 2014, poussées par la volonté d’intégrer Hadoop 2 et les technologies NoSQL dans les processus de traitement des données.

2014 a été témoin d’une évolution en matière de développement et de déploiement d’architecture Big Data. Les utilisateurs se sont en effet devenus aguerris aux technologies NoSQL et autres alternatives aux bases de données relationnelles. Quant à Hadoop 2, il s’est frayé un chemin dans l’analytique opérationnel, au-delà du traitement en mode batch du framework et de son caractère distribué.

L’intérêt pour les technologies Big Data a souvent été lié à la plate-forme Hadoop 2, qui est apparu fin 2013. Cette version a déconnecté HDFS du moteur et du modèle batch de MapReduce, portant ainsi Hadoop vers de nouveaux usages, comme par exemple les requêtes interactives.

Beaucoup de bruits autour d'Hadoop et de Spark

Toutefois, la transformation des PoC en production n’a souvent pas eu lieu, repoussant ainsi cette bataille à 2015.

Les architectes Big Data et autres responsables de la donnée ont également été très occupés à tenter de se familiariser avec les nouveaux moteurs de traitement In-Memory, désormais intégrés au sein des traditionnelles bases de données relationnelles.

Pourtant, ici encore, les discussions autour du Big Data tournaient essentiellement autour des alternatives non relationnelles – et il y a beaucoup à dire. « Une fois la décision prise qu’une base de données SQL monolithique n’était pas nécessaire, l’offre de technologies émergentes qui peut être considérée est aujourd’hui abondante », souligne Joe Caserta, fondateur et président du cabinet de conseil Caserta Concepts.

Ce bruit assourdissant autour d’Hadoop a toutefois été quelque peu atténué par un autre phénomène Open Source : Spark. Le moteur de traitement analytique fonctionne de pair avec Hadoop 2 pour accélérer les traitements en mode batch, beaucoup plus rapidement qu’avec MapReduce.

Mais Spark a également attiré l’attention pour ses usages dans le monde du Machine Learning, une autre tendance clé des douze prochains mois.

MongoDB, Couchbase, Aerospike : NoSQL devient une tendance lourde

MongoDB, Couchbase, Aerospike et bien d’autres : la litanie des bases NoSQL a fortement résonné en 2014. L’apparition de nouvelle technologie NoSQL a rythmé le quotidien, comme l'a remarqué Michael Simone, Directeur de l’ingénierie et de la plateforme CitiData chez Citigroup, à l’occasion de la conférence MongoDB World qui s’est déroulée à l’été 2014.

NewSQL, la passerelle entre les mondes SQL et NoSQL

Ceci est révélateur d'une réalité : les déploiements NoSQL ont progressé pour traiter des vastes quantités de données, souvent de nouvelles formes d’information en provenance du Web, qui s’insèrent difficilement dans les schémas très rigides des bases de données relationnelles.

Par exemple, les bases NoSQL ont parfois été utilisées comme Datastore en mémoire pour faciliter les prises de décisions en temps réel à partir de données marketing Web, pour alimenter un système de support technique qui aident les opérateurs de centre d’appels à suivre l’activité d’utilisateur et ainsi résoudre les problèmes techniques. Ou encore pour stocker des données en vue d’analyser les tendances sur les media sociaux.

Parfois, certains responsables de la données ont opté pour des technologies dites "NewSQL", dont l’ambition est de créer une passerelle entre le meilleur des mondes SQL et NoSQL.

Bâtir le Big Data du futur : défi de 2015

L’intégration de ces outils Big Data aux architectures de données des entreprises a aussi marqué 2014.

Construire un environnement où toutes les technologies cohabitent a été une grosse difficulté en 2014

Vince Dell’Anno, Accenture

« La plus grosse difficulté en 2014 en termes de Big Data tient aujourd’hui à l’architecture en elle-même – comment construire un environnement au sein duquel toutes les nouvelles technologies cohabitent », explique Vince Dell’Anno, Directeur de la gestion de l’information pour le secteur de la Supply Chain chez Accenture.

Selon lui, une des principales difficultés pour les DSI sera de pouvoir gérer des environnements hybrides, qui permettent à des milliers d’utilisateurs finaux d’accéder à des données récentes.

En fait, élaborer des systèmes Big Data pouvant être dimensionnés et les intégrer avec les entrepôts de données, avec les outils analytiques et avec les outils opérationnels en place a été un thème central de 2014.

Parfois, les nouveaux outils ont poussé les administrateurs à renoncer à leurs façons de travailler autour des schémas de données.

Hortonworks lève 100 millions de dollars en bourse en 2014

Sur le marché Hadoop, il reste de nombreuses terres encore vierges

Tony Baer, Analyste chez Ovum

Comme un symbole de l’année, 2014 s’est également terminée par l’entrée en bourse d’Hortonworks, l’un des pure-players des distributions du framework Open Source.

La société, qui compte notamment HP à son capital, a levé 100 millions de dollars dans cette opération. Ce qui semble plutôt modeste au regard des fonds versés par les investisseurs durant l’année.

Mais pour  Tony Baer, analyste chez Ovum, cette entrée en bourse était davantage révélateur des perspectives autour d’Hadoop. « Il s’agit d’un marché inexploré, les ventes sont toutes récentes avec peu de concurrences », soutient-il. « Il reste de nombreuses terres encore vierges. »

En 2015, d’autres acteurs du monde Hadoop et NoSQL devraient également faire leur entrée sur les marchés boursiers américains.

Traduit par la rédaction

Pour approfondir sur Big Data et Data lake

Close