kalafoto - Fotolia

One-Click Cloud : Indexima veut laisser la main aux data analysts

Après avoir accéléré le traitement de données entre Hadoop et les plateformes BI, Indexima veut faciliter le travail des analystes. Le projet One-Click Cloud doit réduire les interventions des ingénieurs data, et idéalement fluidifier l’accès aux données. 

Si les entreprises mettent beaucoup d’efforts en place pour faciliter l’analyse des données, une problématique demeure. Elles doivent souvent faire avec le temps long de la data preparation.

C’est sur ce créneau qu’Indexima place son Data Hub. Cette startup fondée en 2016 a récemment présenté le projet One-Click Cloud, disponible sur la marketplace d’AWS.

Pour expliciter la solution, Nicolas Korchia, directeur général des opérations et co-fondateur d’Indexima, fait jouer son expérience. Ancien responsable équipe BI/Big Data chez Mappy, son rôle était de modéliser les modes de transports préférés des Français. « Il y a cinq ans, utiliser Tableau avec quelques milliards de lignes, c’était un sujet », déclare-t-il. Nicolas Korchia a alors rencontré celui qui deviendra l’un des trois fondateurs et le PDG d’Indexima : Florent Voignier. « Florent est devenu prestataire pour Mappy parce qu’il a développé une solution pour ingérer de gros volumes de données dans Tableau ».

Le Data Hub d’Indexima se positionne entre les outils de data visualisation comme Tableau, Looker, PowerBI, TIBCO Spotfire ou encore Qlikview et les sources de données sur site ou dans le cloud. Consacrée à son lancement à Hadoop, la startup s’est petit à petit diversifiée pour se connecter au data warehouse on-prem, dans le cloud, au bucket comme S3 ou autre Data Lake.

Indexima poursuit son mouvement vers le cloud

Pour accélérer ce traitement, Indexima mise sur un précalcul au moment de la mise à jour des données afin d’actualiser les résultats d’une analyse. À cet effet, Indexima a d’abord développé une application YARN qui appelle un moteur SQL situé au-dessus d’Hadoop (dont les distros Cloudera) lui-même capable d’accéder aux données HDFS sans transformation par la montée en mémoire d’index et de pré agrégats afin de les interroger depuis les outils de data vizualisation.

D’après la documentation de la startup, ce composant nommé HYPERINDEX est également compatible avec les bases de données SQL (Oracle, MariaDB, MySQL, SQL Server, etc.), donc la plupart des data warehouse (Teradata, entre autres), et NoSQL (Cassandra, MongoDB, Marklogic). Cependant, les développements en cours portent davantage sur la gestion des données SQL, qui plus est dans le cloud. « Nos clients sont des utilisateurs de Tableau, Power BI, Looker. Ils sont dans le monde du structuré et du semi-structuré. Nous nous concentrons sur ces usages », affirme Nicolas Korchia.

La startup a adapté son modèle lié à des hyperindex au cloud en déployant son propre format de stockage indexable, maintenant open source : K-Store. Ce fichier JSON orienté colonnes accélère les requêtes OLAP sur de larges volumes de données stockés sur HDFS, S3, Azure Blob Storage ou encore Google Cloud Storage. Celui-ci doit permettre d’obtenir des résultats deux à trois fois plus rapidement que le format Parquet. En outre, Indexima assure que sa solution prend en charge les formats CSV, ORC, Parquet et JSON. L’éditeur souhaite également prendre en charge les données contenues dans les applications comme Salesforce.

« Nous avons mis en place des algorithmes de machine learning capables d’anticiper les types de requêtes afin que les hyperindex s’adaptent à l’usage. »
Nicolas KorchiaIndexima

« Il n’y a pas besoin d’un data engineer pour préparer ce précalcul », assure Nicolas Korchia. « Nous avons mis en place des algorithmes de machine learning capables d’anticiper les types de requêtes afin que les hyperindex s’adaptent à l’usage ».

C’est la principale fonctionnalité de DataSpace qui permet de créer automatiquement des cubes, des extraits de données ou des data marts en fonction des données sources. Avec ces trois composants, Indexima entend faire passer le traitement de 20 milliards de lignes d’une durée de 10 minutes à quelques millisecondes.

Une fois le déploiement dans le cloud ou sur site réalisé, l’utilisateur déclare ses données dans le moteur d’indexation, puis il connecte les données dans l’outil de visualisation pour enfin enclencher DataSpace et sa gestion automatisée des index en fonction des usages.

Se passer des Ops et des ingénieurs data 

En 2018, Indexima avait présenté la version cloud de sa solution hébergée sur les instances S3 et accessible depuis la marketplace AWS (il est également possible d’installer un cluster Hadoop sur AWS EMR et GCP DataProc). C’est l’évolution de cette solution qu’Indexima propose avec One-Click Cloud. « One-Click Cloud vise à installer la solution dans le cloud sans la nécessité de faire appel à des Ops », vante Nicolas Korchia.
« Nous avions déjà travaillé à la containerisation et à l’automatisation de notre produit, nous voulons accélérer les déploiements. Avec One-Click Cloud, il est possible d’installer un nouveau cluster Indexima en moins de trois minutes depuis la marketplace AWS ».

« Avec One-Click Cloud, il est possible d’installer un nouveau cluster Indexima en moins de trois minutes depuis la marketplace AWS. »
Nicolas KorchiaIndexima

Il s’agit encore une fois de simplifier la tâche pour les analystes qui doivent moins dépendre de l’ingénieur data. « Les plateformes comme Indexima emmènent le monde de la BI vers le “no data engineer” », insiste Nicolas Korchia. « L’ingénieur data va continuer à capter et à filtrer plus de données, mais il n’a plus à construire des cubes et des data marts. Il vaut mieux que ça ».

Avec le projet, One-Click Cloud introduit la prochaine étape pour la startup, c’est-à-dire la déclaration de tables via une interface utilisateur sur les moteurs Snowflake, BigQuery et Impala depuis le cloud. « En quelques clics et après s’être connecté à ses comptes Indexima et Snowflake sur ce cluster, il est possible de sélectionner les données dans le catalogue Snowflake et les tables sont accessibles dans Indexima, puis depuis l’outil de visualisation associé », illustre Nicolas Korchia.

Dans un communiqué de presse, Florent Voignier assure que le développement se poursuivra tout au long de l’année 2020 afin de maximiser le nombre de sources de données accessibles, notamment sur S3 et Redshift. Le directeur des opérations insiste cependant sur le fait que la majorité de ses clients dans le cloud utilisent Snowflake et BigQuery.

Indexima a levé plus de 2 millions d’euros. La startup compte parmi ses clients Enedis, CB, EDF, la Caisse des Dépôts, BMG, Natixis ou encore Crédit Agricole Assurance. Tout en poursuivant son développement en France et en Europe, la startup veut convaincre aux États-Unis. Ce ne sera pas pour tout de suite. « Attaquer un marché comme les États-Unis, demande une organisation, une structure forte. Au vu de notre taille, nous devons être raisonnables pour le moment », tempère le COO.

Pour approfondir sur Middleware et intégration de données

Close