WavebreakmediaMicro - Fotolia

Data prep : Datameer ne jure que par la virtualisation de données

Datameer a lancé récemment deux produits : Spectrum et Spotlight. Si Spectrum peut être perçu comme une version managée de son ETL, Spotlight fait entrer l’éditeur dans l’ère de la virtualisation de données.

Fondé en 2009, Datameer est un éditeur basé à San Francisco qui s’est fait connaître via son ETL par-dessus Hadoop pensé pour faciliter la data préparation. Après 11 ans d’activité et plus de 139 millions de dollars levés, la « startup » revendique une centaine de clients grands comptes, aux États-Unis principalement.

Jusqu’alors, la société misait sur Datameer X, un ETL sur site conçu pour nourrir des datamarts depuis des lacs de données on premise. Or Hadoop a perdu de sa superbe, et la plupart des solutions de data lake dépendent de fournisseurs cloud.

En décembre 2020 Datameer, désormais dirigé par George Shahid, a annoncé le lancement de deux nouveaux produits : Spectrum et Spotlight. Ils permettent de préparer des données structurées et non structurées et de les inventorier sans forcément créer de répliques dans le cloud (même s’il est possible de le faire). Avec Spotlight, il s’agit de proposer une couche de virtualisation par-dessus différents entrepôts ou lacs de données.

 « Nous souhaitons donner à nos clients la flexibilité d’accomplir leurs tâches analytiques en se basant sur leurs environnements, qu’ils soient sur site ou dans le cloud », assure George Shahid. « Beaucoup d’organisations ont largement investi sur des infrastructures sur site pour gérer leurs données. Elles n’abandonnent pas forcément leurs solutions existantes parce qu’elles sont bien gouvernées et sécurisées et cela ne fait aucun sens pour elles de tout migrer vers le cloud ». Pour autant, ces entreprises « veulent adopter une approche hybride concernant l’analytique ».

Selon George Shahid, les data lake et les data warehouse cloud « ne font que proposer un nouveau point de centralisation des données ». « L’idée à retenir, c’est que la centralisation n’est vraiment pas la solution. [Les entreprises] ont essayé de faire cela depuis les trente dernières années avec différentes technologies. Il s’agit de ne pas tout mettre dans le même panier », estime le PDG.

Les plateformes cloud de data warehousing et leur utilisation au sein des entreprises, selon lui, génèrent encore et toujours des silos de données. « En un sens, nous disons c’est : “ne mettez pas toutes vos données dans un data warehouse cloud, c’est stupide. Il en résulte le même problème que lorsque vous mettiez toutes les données dans les bases Oracle ou dans Hadoop”. Les fournisseurs cloud le veulent parce que c’est comme cela qu’ils gagnent de l’argent, mais quand vous y pensez, cela n’est pas pragmatique », tranche George Shahid.  

« Les fournisseurs cloud [veulent que vous mettiez toutes vos données dans un data warehouse cloud] parce que c’est comme cela qu’ils gagnent de l’argent, mais quand vous y pensez, cela n’est pas pragmatique ».
George ShahidCEO, Datameer

Spotlight, un hub pour les équipes de data science

Spotlight se présente comme hub analytique virtuel, une application accessible depuis un navigateur web pour cataloguer les jeux de données préparées et explorer ceux disponibles dans les différents environnements d’une entreprise sans migrer les données vers le cloud.

Spotlight est ainsi un espace de collaboration entre data analysts, data engineers et data scientists. Pour cela, Datameer a ajouté une « couche sémantique » pour découvrir les data sets disponibles et les relations entre eux. Il permet de construire un glossaire, d’annoter les jeux de données, de les étiqueter et d’y ajouter des attributs. Les usagers peuvent ensuite chercher par mot clé, par type de persona (data analysts, data scientist, data engineer), d’activité ou encore de statut des tables (à savoir si le travail de préparation est en cours ou non).

Pour l’instant, ces fonctionnalités sont manuelles (néanmoins hautement personnalisables) et dépendent du bon vouloir des utilisateurs. « Nous prévoyons d’améliorer cet aspect, pourquoi pas en automatisant l’étiquetage des données », assure Steve Egan, Senior Global Solutions Engineering chez Datameer.

Spotlight comprend le principe de Workspaces, le nom donné aux différents projets accessibles aux collaborateurs. Ces espaces contiennent des « datasets », c’est-à-dire des tables (jusqu’à 3 millions de lignes par table), mais aussi des documents textes ou PDF pour décrire les données, par exemple. Sur le côté droit, l’outil liste un historique des opérations effectuées par l’utilisateur. Les collaborateurs peuvent en outre suivre le travail de leurs collègues via un système de souscription.

L’éditeur prévient que Spotlight n’est pas un data catalog en soi, il s’agit plutôt d’un inventaire, ce que propose en partie Data Inventory de Talend.

 « Vous avez suffisamment de capacités d’un data catalog pour vos besoins analytiques sans passer par un produit bien plus cher », déclare le CEO. Mais Spotlight entend aller plus loin.

Dans un workspace, les data engineers et les data analysts ont accès à des vues qui peuvent représenter l’assemblage de deux tables ou plus.

L’outil fournit une fonctionnalité de modélisation de vues no code pour préparer les données (filtres, extraction de JSON, jointures, séparations, etc.) et un genre de data lineage. Tout cela s’appuie sur les capacités principales de Datameer X. Spotlight permet également un accès aux sources pour les découvrir. En cliquant dessus, l’utilisateur accède alors à un aperçu de la table afin d’observer sa construction à partir des différentes sources. Une fois les données préparées, l’outil apporte une brique de caching pour optimiser les requêtes effectuées depuis un entrepôt et des connecteurs vers les services BI et les plateformes de Data science du marché.

Spectrum, la version cloudifiée de Datameer X

Quant à Spectrum, il ne change pas la vie des utilisateurs de Datameer X. Il s’agit ni plus ni moins d’une évolution de « l’ETL ++ » (sic) pour les environnements cloud. Son UI reprend les grandes fonctionnalités d’un tableur associé à plusieurs capacités de nettoyage et data préparation. Au moment d’ajouter une source et d’y accéder, l’outil scanne les métadonnées du schéma, reconnaît les structures des tables (nombre de lignes, de colonnes, leur distribution, les valeurs, etc.).

Les utilisateurs peuvent ensuite sélectionner les données qu’ils veulent conserver avant de les préparer, joindre des tables, des colonnes. L’outil permet entre autres d’extraire des chaînes de paires clés-valeur JSON issues d’une colonne (technique généralement employée pour économiser de l’espace de stockage depuis Red Shift, par exemple).

Les data scientists peuvent également encoder directement les données depuis l’outil (encodage one-hot, ordinal et binned) afin d’y appliquer des modèles de machine learning (la plupart des frameworks de machine learning, par exemple Scikit-learn, réclament d’effectuer cette opération avant d’éxécuter un algorithme).

Par ailleurs, Spectrum cartographie toutes les opérations effectuées sur des jeux de données et doit faciliter la planification des jobs, à l’instar d’un ETL classique, puis de charger les data sets transformés dans un entrepôt ou agir comme une source pour Spotlight.

« Spectrum offre des capacités améliorées de migration de données vers le cloud et de gestion des pipelines. Nous avons plus de 250 fonctions. Nous couvrons tous les aspects de la préparation, de la curation, du regroupement de données, de l’analytique profond… tout cela peut être fait au sein de notre produit » vante Steve Egan.

Si les deux produits sont pensés pour être vendus séparément, Datameer les considère comme deux composants d’une plateforme. D’ailleurs, en arrière-plan, l’éditeur s’appuie pour sur les capacités des fournisseurs cloud AWS, Google Cloud et Microsoft Azure.

Lors de la démonstration effectuée auprès de la presse, Datameer utilisait les services d’AWS, dont Spark sur ElasticMapReduce (EMR), pour exécuter les jobs distribués. Depuis les deux briques, il est possible de se connecter à plus de 70 outils tiers de BI comme Tableau, Qlik ou Power BI, des notebooks Jupyter, des plateformes de data science telles que Alteryx, Dataiku, ou encore DataRobot. Au total, l’éditeur assure disposer de plus de 200 relais vers les sources de données IaaS, PaaS, SaaS et on premise.

Deux marchés très concurrentiels

Pour l’instant, Datameer cible essentiellement les équipes de data science et les data analysts les plus avancées. Le modèle économique repose sur un coût d’entrée associée à un prix par utilisateur. Et si la société a souffert de la crise sanitaire en 2020, elle prévoit d’être « rentable plus tard cette année ». Le PDG préfère développer l’activité dans les pays où Datameer est déjà présent. En Europe, il étend son portefeuille client au Royaume-Uni, en Allemagne (où il a référencé Deutsche Bank et Siemens) ou en Suisse, mais ne compte pas ouvrir un bureau en France, pour le moment. « Nous avons les fonds et les capacités pour survivre à cette année gâchée par la COVID. Nos investisseurs nous soutiennent en ce sens », assure George Shahid.

Sauf que le marché de la virtualisation de données connaît une croissance non négligeable. En France, Denodo entend y occuper une place de choix. De son côté, Microsoft présente une vision similaire via son service Azure Purview, cette fois-ci pensé pour les data et business analysts. Qu’à cela ne tienne, l’ETL de Datameer peut aussi simplifier la migration des données vers le cloud, selon l’éditeur qui a annoncé un partenariat avec Google Cloud en ce sens. Sur ce terrain, Informatica et Talend comptent aussi s’imposer auprès des entreprises.

Pour approfondir sur Intelligence Artificielle et Data Science

Close