Pour Gartner, les plateformes de data science manquent un peu de maturité

Gartner a publié cette semaine son Magic Quadrant 2021 du premier trimestre consacré aux plateformes de data science. S’il y a peu de changement en haut du tableau, le cabinet de conseils prend en compte davantage d’acteurs. Il faut y observer le signe d’une croissance forte du marché, malgré un certain manque de maturité.

Le Magic Quadrant de Gartner est attendu de pied ferme par les éditeurs. Y voir figurer le nom de son entreprise assure une visibilité non négligeable. Celui réservé aux plateformes de data science apparaît de plus en plus peuplé. Dans le coin des leaders, pas de surprise, l’on retrouve Mathworks, Databricks, Tibco Software, Dataiku et SAS. IBM rejoint également cette partie du tableau alors que Big Blue était encore challenger en 2019.

Chez les visionnaires, AWS prend place aux côtés de Microsoft, Datarobot, RapidMiner, KNIME, H20.AI et Google Cloud. Domino passe du côté des acteurs de niches, le quart du Magic Quadrant qui connaît le plus de changements.

En effet, l’année dernière, il ne comptait « que » Altair et Anaconda. Les deux éditeurs sont rejoints par Samsung SDS, Cloudera et Alibaba Cloud.

Le seul challenger mentionné n’est autre qu’Alteryx. Leader l’année dernière, il retourne à la position qu’il tenait en 2019. Si les analystes soulignent la capacité de l’éditeur à rassembler data scientists et citizen data scientists dans un même environnement, ils pointent surtout du doigt le changement de portfolio, synonyme de confusion chez les clients interrogés. Le Gartner réitère également sa remarque sur la tarification perçue comme élevée par les utilisateurs, mais il loue la qualité de la stratégie commerciale et de l’expérience client.

Plateforme de data science : des portfolios largement modifiés en 2020

Cette modification en profondeur du portfolio ou une révision des produits ne semble pas spécifique à Alteryx. En réalité, IBM, AWS, Cloudera, SAS, IBM, Google Cloud, Microsoft ou encore Databricks ont largement complété ou revu leurs offres en à peine un an. En la matière, SAS a trouvé la voie cloud native avec SAS Viya 4 désormais disponible sur Microsoft Azure.

Gartner souligne le changement en cours chez Google Cloud d’un portfolio de produits divers (Google AI Platform) à une véritable plateforme, plus qu’à un patchwork de services. De son côté, AWS a multiplié les produits et les fonctionnalités autour de SageMaker pour combler les manques, mais les analystes signalent que « ces nouvelles capacités ne sont ni aussi éprouvées ni aussi solides, que celles des autres fournisseurs en matière de préparation des données, d’interfaces utilisateurs, de collaboration et de cohérence ».

Databricks, lui, se tourne de plus en plus vers les data analysts, mais tout comme Cloudera, AWS, Anaconda, Google Cloud, ou encore Mathworks (Matlab) ne disposent pas assez de fonctionnalités pour les citizen data scientists au goût du cabinet.

De manière générale, les éditeurs se soignent et tentent d’ouvrir leurs plateformes aux experts métiers en favorisant la collaboration, soulignent les auteurs de ce Magic Quadrant.

L’open source fait consensus selon Gartner

Ce manque apparent de « simplicité » peut s’expliquer en partie par la priorité de la grande majorité de ces acteurs, à la recherche d’une forme de standardisation. Gartner note un large consensus autour des projets open source. Certains des éditeurs comme IBM, Cloudera, Google Cloud, H20 ou bien Databricks (entre autres) mènent ou contribuent à des projets de ce type. Les autres, à minima, les embarquent dans leurs solutions.

D’ailleurs Gartner précise ce point en évoquant les composants les plus communs comme les langages de scripts R, et Python, les frameworks, scikit-learn, TensorFlow, les outils de visualisation D3 ou Plotly, les notebooks Jupyter et Zeppelin et bien évidemment les moteurs de ces architectures comme Apache Spark ou Hadoop. De fait, la plupart de ces technologies proviennent des communautés IT et scientifiques, mais tous les éditeurs comprennent bien que ces éléments sont essentiels pour les usagers, largement formés à ces outils.

Attention, toutefois, les analystes font la distinction entre les plateformes de data « ouvertes », et les plateformes open source. Les premières intègrent ou emploient des briques associées à ce type de licence et les autres affichent publiquement leur code source et en autorise la réutilisation (Gartner n’évalue que les solutions commerciales).

Un « marché adolescent » qui doit se concentrer sur la production

Gartner suggère surtout que ce « marché adolescent » mise encore sur l’innovation et la différenciation, plutôt que sur l’« exécution pure ».

 Toutefois, la croissance est là : le cabinet ne se penche que sur le cas des acteurs dont les produits génèrent plus de 75 millions de dollars de revenus récurrents et/ou de coût de licence annuel. Ali Ghodsi, PDG de Databricks, indiquait auprès du MagIT : « la data science est un gros marché. Et je pense qu’il croît beaucoup plus vite que celui de la BI et du datawarehousing. ». Gartner cerne une tendance similaire, mais considère que les plateformes de data science se placent légèrement derrière les outils de BI modernes, en matière de croissance de chiffre d’affaires en 2019 (17,5 % contre 17,9 % entre 2018 et 2019).

Les analystes de Gartner identifient deux autres pistes d’améliorations.
D’une part, les éditeurs, même les plus matures, doivent se pencher sur l’amélioration de l’interface utilisateur, l’AutoML, le MLOps, les performances et l’évolutivité de leur plateforme dans les environnements hybride et multicloud, l’IA explicable, les techniques de Deep Learning et l’approche AIoT.

D’autre part, ils recommandent aux organisations d’adopter une plateforme, de préférence pour toute l’entreprise, qui couvre l’ensemble du cycle, de l’intégration des données à la surveillance en production des algorithmes. Et pour cela, les éditeurs doivent favoriser la plus grande interopérabilité possible entre leurs solutions et les infrastructures existantes des clients.

Pour approfondir sur Intelligence Artificielle et Data Science

Close