NicoElNino - Fotolia

Data preparation : Alteryx appuie sur les boutons AutoML et cloud natif

Alteryx n’a pas lésiné sur les annonces lors de sa conférence Inspire organisée du 18 au 21 mai. L’éditeur spécialiste de la préparation de données a dévoilé six nouveautés, quatre d’entre elles concernent des fonctionnalités déjà disponibles et les deux restantes peuvent être testées en préversion. Sans surprise, l’éditeur maintient sa position de facilitateur des projets de data science, en s’adressant aux data et business analysts.

Alteryx mise à la fois sur des outils en libre-service, mais également sur l’apport de nouvelles capacités. Ainsi, il place en tête d’affiche Alteryx Machine Learning. Ce produit repose sur un environnement low-code/no-code permettant de bâtir des processus de machine learning. Il inclut une fonction de Feature Engineering (et donc un Feature Store) afin d’évaluer des paramètres et des modèles ML. Les utilisateurs peuvent conserver une trace des jeux de données et des configurations les plus pertinentes dans un cas d’usage spécifique afin de les réutiliser.

Suite de l'article ci-dessous

AutoML à tous les étages

Alteryx Machine Learning s’accompagne également d’une capacité de Deep Feature Synthesis (DFS), une « méthode automatisée pour exécuter du feature engineering sur des données relationnelles et temporelles » qu’Alteryx prévoit de breveter. Il s’agit de l’intégration de la technologie de Feature Labs, une startup spin-off du MIT rachetée en octobre 2019 pour 37,7 millions de dollars, selon CrunchBase. Son fondateur, Max Kanter a développé DFS dès 2014 avec Kalyan Veeramachaneni avant d’en proposer une version open source (sous licence BSD-3) intitulée Featuretools en 2017.

Featuretools se connecte aux librairies de machine learning les plus populaires pour abstraire l’agrégation de données et l’application de fonctions statistiques nécessitant habituellement de rédiger de nombreuses lignes de code. Il permet ainsi d’identifier des features primitives, puis de les amonceler pour générer des caractéristiques plus complexes. Chaque phase d’empilement (c’est-à-dire chaque calcul d’agrégation et de transformation) augmente la profondeur – et donc la précision – d’un paramètre. Avec Alteryx Machine Learning, l’éditeur ajoute une nouvelle couche d’abstraction ; Deep Feature Synthesis dispose d’une IU pour manipuler l’outil sans code et parcourir l’arborescence de ces features.

Surtout, Alteryx Machine Learning intègre une fonctionnalité d’AutoML, déjà disponible dans Alteryx Intelligence Suite. La documentation de l’éditeur précise que l’outil fournit 18 algorithmes  basés sur des méthodes de régression et de classification (XGBoost, Linear, Catboost). AutoML part du principe suivant : l’utilisateur ne sait pas quel algorithme convient le mieux à son cas d’usage. Il lance alors « une compétition » entre les algorithmes afin de choisir automatiquement le candidat idéal. Les usagers les plus avancés peuvent sélectionner manuellement la méthode de machine learning qu’ils estiment la plus efficace. Ces fonctionnalités sont directement issues des autres librairies développées par Feature Labs : EvalML, Compose et Workwood.

Tout comme avec les fonctionnalités de Feature Engineering, de Deep Feature Synthesis, Alteryx entend fournir des informations et des recommandations pour expliquer les résultats obtenus. Ce nouveau produit inclut également un « mode éducation » afin de renseigner les néophytes de la data science sur les méthodes à privilégier.

Dans la même veine, l’éditeur a présenté les mises à jour d’Alteryx Intelligence Suite 21.2, un module supplémentaire à Alteryx Designer qui rassemble des capacités de machine learning pratiquement identique à celle d’Alteryx Machine Learning. Alteryx y ajoute la possibilité de développer des modèles de traitement du langage naturel (NLP), d’extraction d’entités nommées, d’analyse de sentiment, de computer vision et d’OCR. Alteryx s’est concentré sur l’extraction de données en provenance de PDF, de photos ou de factures comprenant des colonnes. Il s’agit d’exploiter toutes les formes de reçus contenant des données clients et comptables.

« Même si je ne crois pas que l’on puisse faire de tout le monde un expert de la data science, je pense que ces outils permettront aux data scientists d’être plus productifs et aux autres d’expérimenter les possibilités de cette pratique. »
David MenningerDirecteur de la recherche Data & Analytics, Ventana Research.

« Les capacités d’Alteryx Machine Learning et d’Intelligence Suite permettront à un plus large éventail de personnes de créer des modèles d’apprentissage automatique », déclare David Menninger, directeur de la recherche Data & Analytics chez Ventana Research. « Même si je ne crois pas que l’on puisse faire de tout le monde un expert de la data science, je pense que ces outils permettront aux data scientists d’être plus productifs et aux autres d’expérimenter les possibilités de cette pratique. »

Concernant la Data Vizualisation, si Alteryx propose des fonctionnalités d’exploration de données, il ne souhaite pas s’opposer à ses partenaires comme Tableau, Microsoft Power BI ou encore Qlik, assure Suresh Vittal, Chief Product Officer chez Alteryx auprès du MagIT. « Nous savons que nos clients aiment disposer des outils de data viz alignés avec leurs environnements analytiques, mais ne voyons pas le besoin pour un autre outil de visualisation de données de bout en bout ».

Comme d’autres, les dirigeants d’Alteryx mettent en lumière l’importance d’accélérer les développements en data science dans un contexte de crise sanitaire.

Sauf que l’entreprise propose depuis sa création en 1997 ses services en mode Self-Managed, ce qui réclame aux services IT de déployer les outils d’analytique en libre-service sur site ou dans le cloud (Designer sur les desktops, Server sur des VM) avant même que les équipes de data science puissent les exploiter.

Designer Cloud : un petit pas vers le cloud pour Alteryx

En ce sens, elle a présenté en préversion publique (pour les clients existants) Alteryx Designer Cloud, la version managée dans le cloud d’Alteryx Designer, son produit phare qui rassemble ses outils d’analytique en libre-service (data preparation, rapports et analytique avancée).

« Nous savons que nos clients aiment disposer des outils de data viz alignés avec leurs environnements analytiques, mais ne voyons pas le besoin pour un autre outil de visualisation de données de bout en bout ».
Suresh VittalChief Product Officer, Alteryx.

Il n’y aura plus besoin d’installer un client par poste comme avec Designer : la version cloud est accessible depuis une interface Web.

Shamira Mulligan, Chief Strategy Officer chez Alteryx assure que ce premier environnement cloud natif sera suivi par d’autres, taillés pour ces usages à la demande. « C’est au cœur de notre stratégie », insiste-t-elle.

Les autres produits (Connect, Promote, Alteryx Analytics Hub, Server) arriveront prochainement dans le cloud, à commencer par Alteryx Server, selon Suresh Vittal. « Nous voulons réimaginer nos capacités de planifications, de partage et de collaboration dans le cloud. Nous souhaitons aussi réimaginer comment nous bâtissons et déployons des applications analytiques dans le cloud ».

David Menninger souligne que cette première incursion dans le cloud intervient bien après que des concurrents de longue date aient commencé à proposer des versions cloud de leurs outils. De leur côté, les éditeurs natifs de cet environnement s’attaquent à ce marché de la data preparation et de la data science. L’analyste y voit cependant un pas dans la bonne direction de la part d’Alteryx.

« Alteryx est entré un peu tardivement sur le terrain avec son offre cloud », rappelle David Menninger. « Designer Cloud permettra aux entreprises de disposer d’une véritable offre SaaS plutôt que d’installer et de gérer leurs applications Alteryx sur des [machines virtuelles] dans le cloud. Bon nombre des avantages du cloud ne sont réalisés que par le biais d’offres SaaS où vous pouvez vous décharger de la responsabilité de la maintenance et de l’administration continues du système. »

Cependant, l’éditeur ne souhaite pas adopter une approche « Cloud first ». « Déployer Designer dans le cloud ne veut pas dire que le produit ne sera plus disponible en version desktop. Nous souhaitons rendre nos produits disponibles partout où les clients le demandent », affirme Suresh Vittal. Alteryx espère toutefois améliorer ses connecteurs vers les data warehouse et data lake cloud du marché, dont Databricks, Azure Synapse ou Snowflake.

En outre, Designer Cloud permet de s’affranchir du développement d’une version macOS. Les propriétaires d’ordinateurs Apple pourront enfin employer Designer sans manipulation supplémentaire (Designer n’est pas nativement compatible avec macOS : il faut passer soit par Boot Camp, soit par Windows VM), ce que certains usagers attendaient de pied ferme.

La grande inconnue reste la tarification de ces produits cloud. Alteryx a la réputation de tenir des prix catalogue élevés (Designer coûte 5 195 euros par utilisateur et par an pour les usagers qui ne seraient pas membres d’une entreprise). « Nous testons encore le déploiement de Designer Cloud avec nos clients, nous travaillerons à établir une tarification et une stratégie go-to-market selon leurs retours », affirme Suresh Vittal.

Capacités supplémentaires

En plus d’Alteryx Machine Learning, Intelligence Suite et d’Alteryx Designer Cloud, l’éditeur a dévoilé la mise à jour 2021.2 d'Alteryx Analytic Process Automation Platform (APA), désormais disponible. Cette suite réunissant Alteryx Designer, Server et Connect introduit des mises à jour ciblant plusieurs capacités.

D’abord, l’API et le SDK associés à la plateforme doivent faciliter le développement de nouveaux connecteurs vers des sources de données dans le cloud et sur site, fournir un chemin vers la création d’applications d’automatisation et des blocs de construction dans Alteryx Designer, afin de créer et déployer des applications plus rapidement.

Alteryx Community est désormais directement accessible dans APA. L’éditeur ajoute aussi un moteur de recommandation personnalisé et un nouveau portail de data science sur AutoML et les analyses avancées.

Avec la version 2021.2, Designer comporte plus de 300 blocs de construction pour l’analyse et la data science, dont Data Cleansing qui doit accélérer le processus de préparation des données, faciliter la création de macros en générant des blocs réutilisables. Enfin, la mouture 2021.2 améliore l’intégration avec UiPath, Blue Prism, Tableau, Microsoft Azure et AWS.

Pour approfondir sur Intelligence Artificielle et Data Science

Close