echiechi - Fotolia

Indexima arme son concept de Data Hub avec son format open source K-Store

La société qui voulait accélérer les data lakes avec ses hyper-indexes a ouvert son format K-Store à la communauté open source pour en faire émerger un écosystème et garantir aux utilisateurs d’Indexima l’interopérabilité.

par

Cyrille Chausson, Rédacteur en Chef

Publié le: 18 févr. 2019

Indexima a décidé d’accompagner son nouveau positionnement de « data hub » en versant dans l’open source son propre format de données de stockage, K-Store. Objectif : créer un écosystème autour de ce format qui vient remplacer et améliorer les parquet et autres ORC pour l’analytique, et garantir l’ouverture aux clients d’Indexima. La société, qui avait placé un tigre dans Hadoop fait ainsi progressivement évoluer son modèle.

K-store est en fait un format optimisé nativement pour le cloud, explique Florent Voignier, co-fondateur d’Indexima. Les développements ont germé alors que la société déployait ses hyper-indexes vers le cloud, et surtout sur le service de stockage S3 d’AWS. Au départ, il s’agissait donc d’un format optimisé pour les hyperindexes de la marque et qui devaient faciliter l’indexation. Le responsable justifie : « les formats en place, comme parquet et ORC, ne sont justement pas facilement indexables. On s’est rendu compte que ces fichiers étaient très lents et peu performants sur ce type de stockage bloc ».

« La souplesse de JSON, les performances du stockage en colonne »

L’idée a donc été de créer un format de fichier orienté colonnes, avec la souplesse de JSON, et donc adapté à l’analytique. Au départ, il s’agissait un format uniquement optimisé pour les hyperindexes d’Indexima. Mais « le cloud a provoqué une évolution radicale du format Indexima vers K-Store».

La société l’a ensuite ouvert à l’open source (sous une licence Apache 2.0) car « ce format peut être aussi intéressant pour des entreprises qui n’utilisent pas Indexima mais qui voudraient accélérer leur data lake », lance encore Florent Voignier. Avec K-store sur S3, les performances sont 2 à 3 fois supérieures, comparées à des données en parquet, selon lui. Ce qui vaut largement la création d’un écosystème autour de cette nouvelle technologie.

Avec cette ouverture à l’open source, le responsable espère attirer les éditeurs, et disposer de liens vers les autres technologies clé du Big Data, comme Hive, Spark ou encore Presto qui pourraient alors traiter directement les données au format K-Store.

Un positionnement de data hub

Justement, cet écosystème est aujourd’hui devenu clé pour Indexima qui a vu progressivement son utilisation glissée vers de nouveaux cas d’usage. « La solution est certes née autour d’un projet (celui de Mappy pour mémoire, NDLR) avec beaucoup de données, mais on s’est rendu compte qu’il y avait un besoin d’accélérer la BI sur des projets plus modestes », lance encore le co-fondateur. Du Big Data, Indexima a aussi un rôle à jouer dans le Small Data.

Ces nouveaux projets ont donc fait évoluer le socle Indexima. La société s’affiche désormais au marché comme un « data hub » pour accélérer les analyses et la data science. Ce principe du « data hub » est de réunir virtuellement les données utiles des entreprises, généralement disséminées dans plusieurs solutions, comme des lacs de données ou encore des bases de données, - et donc avec leurs propres problèmes de performances. Indexima compte « unifier toutes les sources des données, les croiser et connecter directement un outil de BI pour avoir des réponses très rapides », explique Florent Voignier. D’un turbo pour Hadoop, on est passé au « data hub » pour toutes les données de l’entreprise – Notons au passage que ce concept marketing est largement sur-exploité dans le secteur de la gestion des données et des Big Data, quitte à en flouter les contours.

Des connecteurs ont donc été développés pour créer des liens vers ces nombreuses sources. Des travaux sont également en cours pour brancher Indexima sur les données contenues dans les applications métier, comme Salesforce.

Si la virtualisation de données constitue le point de départ de cette vue unique, l’hyper-index, cœur d’Indexima en est le moteur principal. Mais avec K-Store, 2 modes sont désormais possibles : copier la source dans K-Store qui se trouve sur le data lake ; interroger directement la source avec l’hyper-index. « Le choix dépend de la source et de son type d’accès », résume-t-il. La grande majorité des cas d’usage Indexima reprend le premier cas d’usage (avec K-store donc). Une ouverture à l’open source est donc ici une clé du modèle.

Indexima arme son concept de Data Hub avec son format open source K-Store

La société qui voulait accélérer les data lakes avec ses hyper-indexes a ouvert son format K-Store à la communauté open source pour en faire émerger un écosystème et garantir aux utilisateurs d’Indexima l’interopérabilité.

« La souplesse de JSON, les performances du stockage en colonne »

Un positionnement de data hub

Pour approfondir sur Big Data et Data lake

AI World : Oracle finalise non pas un, mais deux lakehouses

Indexima 2.0, l’infrastructure qui accélère Snowflake

CloudWorld 2022 : Oracle se lance (lui aussi) dans la course au Lakehouse

VantageCloud Lake : Teradata change le châssis, pas le moteur