Ces nouveaux moteurs de l’analytique moderne

Introduction

Des usages s’ajuste la technologie. Dans le cas de l’analytique, on ajouterait même qu’elle se bonifie. Si depuis une décennie le Big Data occupe les DSI, quitte à leur donner des sueurs froides, le marché des outils et services analytiques a quant à lui, dû s’ajuster pour mieux se fondre dans les usages des entreprises. Et surtout, répondre à leurs exigences. Souvent complexes, demandant des compétences rarissimes – à l’image des data scientists -, les solutions d’analyses de données ont dû non seulement se rapprocher des préoccupations métiers des DSI, mais aussi composer avec des technologies qui évoluent à un rythme effréné. La difficulté a bien été de ne pas créer un fossé entre les usages métiers et les socles technologiques. Industrialisation, RoI, amélioration de l’expérience utilisateur proposée aux métiers, tous les éditeurs ont alors travaillé à suivre les entreprises et à leur fournir des applications adaptées. En ligne de mire : accélérer les cas d’usage - et donc leur RoI - et ne pas laisser les entreprises s’écarter trop vite des technologies.

Ce guide passe en revue plusieurs initiatives qui y ont contribué : des plateformes pour accélérer la data science et la rendre « consommable » par les métiers, l’intégration de nouvelles générations de hardware (GPU, RAM, SSD, …) ou encore la traduction réelle des spécificités du cloud (le dimensionnement et l’élasticité) dans les bases de données, sans compromettre la cohérence des données, voire rendre ACID les outils dont la vocation n’était pas le transactionnel.

Le marché a ainsi cherché à donner la possibilité aux entreprises d’exploiter les données accumulées dans des lacs de données surchargés – mais sans usage. Vers une quête de sens en somme.

1Industrialiser les projets-

Il est temps de faciliter la mise en place de nouveaux socles pour accélérer les cas d’usage

Conseils IT

GPU, RAM et SSD : des turbos pour l’analytique

Les start-ups californiennes MapD, AeroSpike et GridGain ont développé une technologie de base de données ou de moteur SQL qui exploitent les caractéristiques de vélocité propre à la mémoire RAM, au SSD ou encore au GPU. Lire la suite

Actualités

Big Data : bienvenue dans l’ère des plateformes pour industrialiser la data science

Parce que le démarrage de projets est fastidieux et que le RoI n'est pas souvent présent, des sociétés développent des plateformes dont l’ambition est de pré-intégrer technologie et usages pour industrialiser les projets. Saagie et ForePaas, rencontrées au salon Big Data Paris, en sont l’exemple. Lire la suite

2Structurer le déstructuré-

Faciliter l’accès auprès des métiers

Conseils IT

Tout pour vraiment bien comprendre les catalogues de données

Les catalogues de données servent de portails de données en libre-service pour les analystes et les utilisateurs métier. Cet article s’intéresse à la façon dont les données sont sélectionnées et conservées, aux fonctions, ainsi qu’aux fournisseurs du marché. Lire la suite

Actualités

Waterline Data veut cataloguer automatiquement les données cachées

La société californienne développe une solution de catalogage automatisé de données qui jusqu’à étaient perdues ou cachées et donc sous exploitées. Son idée est de redonner de la structure à ces lacs de données, souvent trop marécageux. Lire la suite

Actualités

Graphe : nouveau moteur pour les outils de gestion de données

Les technologies de graphes fleurissent sur le marché, y compris dans la gestion des données de référence (MDM – Master Data Management). Et Informatica, acteur clé du monde de l’intégration de données, a rallié la cause. Lire la suite

3Au-delà de SQL et d’ACID-

Le NoSQL devient ACID, mais SQL reste le langage standard

Les bases de données deviennent géo-distribuées. Les entrepôts de données exploitent l’élasticité du cloud. Et le NoSQL devient ACID. Mais SQL reste le langage standard

Actualités

AntidoteDB milite pour la juste cohérence des données en environnement géo-distribué

Stricte, forte, faible, à terme… la cohérence des données est généralement un élément qui nécessite un arbitrage dans les systèmes massivement distribués. Le projet de base de données Cloud AntidoteDB entend rapprocher cohérence et disponibilité, limitant les compromis. Pour une cohérence juste et adaptée à l’application. Lire la suite

Actualités

Cloud Spanner : à son tour, Google fait changer SQL de dimension

En amont de Google I/O, Google a ouvert officiellement son service de base de données SQL massivement distribué Cloud Spanner. Son intérêt : une cohérence forte des données. Lire la suite

Actualités

Cosmo DB : Microsoft dope DocumentDB aux modèles graphes et clé-valeur

L’éditeur a présenté Cosmo DB, une base NoSQL dans le Cloud qui reprend les API de DocumentDB et MongoDB pour y adjoindre les modèles de graphes et Table Storage d’Azure. Microsoft y associe un modèle de cohérence de données plus granulaire. Lire la suite

Actualités

Entrepôt de données : Snowflake monte dans le Cloud français

La société américaine développe une architecture type qui sépare les données de leurs traitements, pour favoriser les capacités de dimensionnement propre au Cloud. La technologie repose sur un moteur SQL Lire la suite

Actualités

Apple publie le code source de FoundationDB, sa base de données NoSQL ACID

Trois ans après avoir racheté FoundationDB, Apple a publié cette semaine le code source du coeur de la base de données. Foundation DB offre des caractéristiques assez uniques en proposant un moteur NoSQL distribué garantissant la cohérence des données (ACID). De quoi offrir une alternative séduisante aux bases comme MongoDB, Cassandra ou Redis. Lire la suite

Actualités

MongoDB épingle un contrat de confiance ACID à sa base NoSQL

La base de données annonce le support de garanties ACID pour les transactions multi-documents. La société se positionne sur les terres historiques des bases relationnelles et veut devenir une base généraliste. Lire la suite

Conseils IT

BigQuery vs Redshift : quelques critères pour les différencier

Google BigQuery et Amazon Redshift sont aujourd’hui deux technologies à considérer pour qui s’intéresse aux entrepôts de données dans le cloud. Mais, pour choisir, il convient de connaître les principales différences de chaque technologie. Les coûts et les capacités d’administration en font partie. Lire la suite

4S3, une clé de l’analytique-

Quand le service de stockage objet d’AWS se rapproche d’Hadoop et de SQL

Conseils IT

S3 : une option de stockage de plus en plus utilisée pour Hadoop

Au cours des dernières années, le support du protocole S3 par Hadoop s’est considérablement enrichi. Au point que de nombreux utilisateurs effectuent aujourd’hui directement des requêtes sur des données stockées dans des systèmes de stockage objet, là où auparavant, ils les auraient importées dans HDFS. Lire la suite

Conseils IT

AWS Athena : comment améliorer la performance des requêtes… et réduire ses coûts

Amazon Athena permet d’interroger plus de formats de données que son rival Google BigQuery. Toutefois, il est préférable de privilégier certains formats pour tirer pleinement parti du service AWS Lire la suite

Actualités

Big Data Paris : Indexima, qui arrive sur AWS, accélère aussi les requêtes sur S3

Après les données stockées dans HDFS, la société française a adapté sa technologie Data Hub pour requêter directement les données stockées dans S3 - et avec les mêmes gains de performances. Cela marque aussi l'arrivée d'Indexima dans le Cloud. Lire la suite

Ces nouveaux moteurs de l’analytique moderne

Introduction

1Industrialiser les projets-

Il est temps de faciliter la mise en place de nouveaux socles pour accélérer les cas d’usage

GPU, RAM et SSD : des turbos pour l’analytique

Big Data : bienvenue dans l’ère des plateformes pour industrialiser la data science

2Structurer le déstructuré-

Faciliter l’accès auprès des métiers

Tout pour vraiment bien comprendre les catalogues de données

Waterline Data veut cataloguer automatiquement les données cachées

Graphe : nouveau moteur pour les outils de gestion de données

3Au-delà de SQL et d’ACID-

Le NoSQL devient ACID, mais SQL reste le langage standard

AntidoteDB milite pour la juste cohérence des données en environnement géo-distribué

Cloud Spanner : à son tour, Google fait changer SQL de dimension

Cosmo DB : Microsoft dope DocumentDB aux modèles graphes et clé-valeur

Entrepôt de données : Snowflake monte dans le Cloud français

Apple publie le code source de FoundationDB, sa base de données NoSQL ACID

MongoDB épingle un contrat de confiance ACID à sa base NoSQL

BigQuery vs Redshift : quelques critères pour les différencier

4S3, une clé de l’analytique-

Quand le service de stockage objet d’AWS se rapproche d’Hadoop et de SQL

S3 : une option de stockage de plus en plus utilisée pour Hadoop

AWS Athena : comment améliorer la performance des requêtes… et réduire ses coûts

Big Data Paris : Indexima, qui arrive sur AWS, accélère aussi les requêtes sur S3

5Lexique-

Définitions