Fotolia

Témoignage : en matière de data science, la communauté Big Data est déconnectée des besoins réels

A l’occasion du salon Dataworks Summit qui se tenait courant avril à Munich pour réunir la communauté Hadoop, LeMagIT a recueilli des témoignages portant sur le déploiement de projets Big Data. Réussis ou pas, ces projets livrent des expériences de terrain disparates. Aujourd’hui, le témoignage Jacques Verré, data scientist dans un groupe financier au Royaume-Uni. Il travaille à appliquer des algorithmes de ML pour des cas d’usages liés à la fraude. Pour lui, la communauté du Big Data est encore loin de coller aux exigences réelles des entreprises en matière de data science.

par

Yann Serra, LeMagIT

Publié le: 22 mai 2017

Jacques Verré est data scientist pour un groupe financier britannique. Son employeur a décidé d’investir dans l’embauche de statisticiens comme lui dans l’espoir qu’ils utilisent le Big Data pour mieux détecter les fraudes. Son expertise consiste à savoir quel algorithme de Machine Learning utiliser parmi la pléthore de ceux fournis avec Apache Spark, le framework de calcul distribué qui effectue ses traitements sur les données contenues dans un cluster Hadoop. Le choix de l’algorithme, en l’occurrence du code Python, est conditionné par le type de données à analyser et le type d’informations que l’on cherche. Les modèles de résultats produits sont par ailleurs ajustables avec des paramètres, mais encore faut-il que Jacques Verré puisse déterminer les plus pertinents.

Des algorithmes de data science peu adaptés au modèle distribué des clusters

« Le problème que me pose le Big Data est que je dois sans cesse rapiécer. Car le Big Data, ça marche très bien pour stocker des données, pour les récupérer en temps réel, pour en faire des moyennes, pour les visualiser. En revanche, ce n’est pas encore bien adapté aux algorithmes de la data science. Pour la bonne et simple raison que ces algorithmes ont été écrits pour fonctionner sur une machine, alors que le Big Data fonctionne sur un cluster.

« Concrètement, lorsque j’obtiens un résultat qui ne correspond pas à ce que j’attendais, comment savoir si c’est parce que je me suis trompé d’algorithme ou parce qu’il y a un bug informatique dans le fonctionnement du cluster ? Je perds beaucoup de temps.

Une communauté déconnectée des besoins des entreprises

« Par exemple, l’un de mes confrères voulait faire du Machine Learning sur un flux de données entrant. La communauté lui a répondu : ‘pas de problème, ça marche’. Sauf qu’il a mis 6 mois pour y parvenir, parce qu’on lui a dit qu’il y avait 150 paramètres à tripoter dans Spark. Et, en bout de course, il s’est rendu compte que ces paramètres ne lui servaient à rien, qu’il lui suffisait juste d’ajouter de la mémoire dans son cluster pour que son traitement fonctionne.

« Faire des statistiques en temps réel sur des données entrantes, selon un modèle préparé en amont avec un moteur de Machine Learning, est une problématique très importante en matière de fraude et à laquelle la communauté Apache ne sait pas encore correctement répondre. Pour ma part, je suis obligé de créer mon modèle avec Spark ML, de les convertir en PMML, puis de l’appliquer aux données entrantes avec Openscoring.io, un autre outil Open Source, mais qui n’a rien à voir avec les outils Apache. Ca devient une usine à gaz dont le fonctionnement affecte la qualité des résultats.

« La communauté des développeurs Open Source du Big Data est complètement déconnectée des réalités du terrain. Quand elle se rend compte que Spark ne sait pas bien faire telle ou telle chose, elle répond en ajoutant un tout nouvel algorithme censé mieux exécuter la fonction. Sauf que, en entreprise, on part du principe que tout module fraîchement sorti de nulle part est potentiellement rempli de failles de sécurité que l’on ne découvrira qu’après coup.

De la difficulté d’identifier un projet Apache dans lequel investir

« Ce travers de sans cesse vouloir réinventer la roue pénalise notre activité, y compris sur le plan financier. Prenez Apache Metron, un moteur de Machine Learning orienté cyber-sécurité. A priori ça nous concerne. Sauf que, pour le déployer, il faut déjà quelqu’un qui sait comment ça marche, donc de nouvelles compétences à embaucher. Il faut ensuite apprendre ses fonctionnalités, il faut le maintenir en plus de ce que l’on avait déjà. Et on ne sait même pas si c’est mâture ou si nous devons attendre un an, deux ans avant de l’utiliser. Et qui nous dit que, d’ici là, la communauté Apache n’aura pas trouvé quelque chose d’encore radicalement différent pour le remplacer ?

« C’est la grande inconnue du Big Data à l’heure actuelle : quels sont les projets pérennes ? Quels sont ceux en bout de course ? En clair, qu’est-ce qui, parmi la centaine des projets Apache, vaut vraiment l’investissement ?

Témoignage : en matière de data science, la communauté Big Data est déconnectée des besoins réels

Des algorithmes de data science peu adaptés au modèle distribué des clusters

Une communauté déconnectée des besoins des entreprises

De la difficulté d’identifier un projet Apache dans lequel investir

Pour approfondir sur Big Data et Data lake

Data Processing : OVHcloud vante les qualités de son Spark à la demande

Data Lake : soutenu par Uber, le projet Apache Hudi gagne en maturité

L’essentiel sur Oracle Data Science

Streaming Data Platform : Dell EMC mise sur une combinaison de briques open source