Big Data : Sephora prédit les performances de sa e-boutique avec le Machine Learning

L’enseigne française internationale a amélioré ses forecasts de ventes et de volumes de commandes avec l'AI. A la clef, des bénéfices pour sa logistique, son SAV et pour son efficacité marketing. Le responsable du projet mené avec Dataiku et Avisia partage les leçons à tirer de l'expérience.

Sephora - la chaine de magasins de cosmétiques d’origine française – connait une une croissance « à deux chiffres » et « une forte croissance des ventes en ligne » depuis qu’elle est passée dans le giron de LVMH. En 2016, elle a réalisé un CA de 1,5 Milliards d’euros rien qu’en France, avec un développement international et numérique soutenu (le numérique aide en plus à conquérir de nouveaux marchés), tendance confirmée en 2017.

Dans cette dynamique, le site e-commerce de Sephora devient de plus en plus central. Ce qui explique la volonté du groupe de se lancer dans un projet ambitieux à base d’AI (Machine Learning) et d’analytique prédictif.

Contexte

Pour piloter l’activité de la e-boutique, les responsables du site doivent réaliser régulièrement des forecasts de ventes, de chiffres d’affaires et de volume de commandes. Ces estimations prévisionnelles alimentent en données différents services : le marketing, la supply chain (chaîne logistique) et le service clients.

Concrètement, le marketing utilise ces informations pour calibrer ses offres promotionnelles et ses opérations d’animation, pour définir son plan marketing, et pour le valider. La supply chain, elle, utilise le volume de commandes pour mieux anticiper son organisation (dimensionner son équipe en entrepôt, par exemple). Le but étant de respecter les délais de livraisons au client. Quant au service client, il extrapole des volumes d’appels au call-center pour s’adapter de manière pro-active.

« Jusqu’à présent, ces estimations étaient réalisées manuellement », explique Clément Marchal, Manager Data Science chez Sephora. Le travail représentait une charge importante. Sephora a donc décidé de lancer un projet pour automatiser et pour améliorer ses forcecasts avec pour but ultime de huiler sa chaine de la donnée et de prévisions.

Mais pour y arriver, le Manager Data Science prévient qu’il faut relever trois défis majeurs : celui de la « data », celui du Machine Learning » et celui du process.

Les données : le cœur de l’analytique

Chez Sephora, il a d’abord fallu identifier sur quelles données s’appuyer pour prédire des indicateurs clefs, et savoir comment collecter cette donnée.

« Ce projet transverse a nécessité la collaboration de nombreuses équipes », témoigne Clément Marchal, « les équipes  e-store, web, web analytics, de l’IT (pour le Data Lake), et de Data Science ». Sans oublier deux prestataires externes que Sephora a choisis pour l’épauler dans ce chantier : le cabinet de conseils Avisia et Dataiku (« sa plateforme Dataiku DSS nous a permis de développer des algorithmes et de les industrialiser »).

Les prévisions de Sephora s’appuient sur deux sources principales de données : le plan marketing quotidien (qui liste les offres, évènements, animations) et les informations de navigations sur le site (visites, transactions, nombre de commandes, CA, type de livraisons utilisés). Mais pas les prix. Le but étant d’aller vite et d’arriver à un résultat pour prouver le bénéfice de la démarche, l’équipe de travail n’a pas voulu multiplier les variables.

Les deux sources alimentent un Data Lake, mais avec une différence. « Les données du plan marketing sont intégrées dans le Data Lake à la demande des métiers, pour qu’ils puissent réaliser des prévisions sur leurs dernières offres par exemple. [Mais] les données de navigation sont versées automatiquement, à J+1 ».

Sur ce point, le Manager Data Science de Sephora a tiré un premier enseignement de ce projet, qu’il donne sous forme de conseils pour qui souhaite se lancer dans une aventure analytique similaire. Il ne faut pas sous-estimer la volumétrie des données de navigation. « Elles sont très denses, elles représentent 250 champs. On parle de 2 à 5 To de données par mois en ce qui nous concerne ».

Machine Learning : choisir les algorithmes n’est pas trivial

On a tendance à le gommer, mais le Machine Learning n’est pas une technologie monolithique. La discipline regroupe au contraire une multitude d’algorithmes. Pour réaliser de bonnes prévisions, il faut donc choisir le bon algorithme.

Sephora a commencé sa sélection en se concentrant sur deux indicateurs : le CA quotidien et le volume de commandes (là encore, le choix de quelques indicateurs clefs traduisent la volonté de faire « vite et bien »). Ces deux prévisions sont réalisées pour une durée de plusieurs semaines, avec un calendrier d’estimations jour par jour.

Comment Sephora a-t-il concrètement sélectionné ses algorithmes ? « Ils devaient répondre à trois critères », répond Clément Marchal. « Ils devaient pouvoir intégrer les tendances de l’activité à court moyen et long termes (à la semaine, au mois et à l’année) ; ils devaient pouvoir ré-apprendre des dernières tendances (notre activité sur le site est volatile), et ils devaient pouvoir intégrer du contexte marketing (le plan marketing ont un impact significatif sur l’activité) ».

Plusieurs algorithmes ont au final été sélectionnés par Sephora dont « random forest ».

Procédure : l’analytique n’est rien s’il n’est pas utilisé par tous

Troisième défi du projet : la question des procédures. Car avoir des outils analytiques est une bonne chose, mais que les métiers les utilisent est beaucoup mieux. « Il fallait des prévisions sans complexités, qui soient agiles et efficaces », confirme le responsable du projet.

Nous avons une chaine de traitement de bout en bout, avec des prévisions automatiques qui restent à la main des métiers, avec la possibilité d’itérer, de les valider, de les contrôler et de les diffuser
Clément Marchal, Manager Data Science, Sephora

La première partie du process mis en place chez Sephora est aujourd’hui le suivant. Le marketing dépose son nouveau plan sur le Data Lake. Via un simple bouton « run », le Data Lake se connecte à la plateforme de Dataiku et lance les modèles analytiques. La réception des prévisions se fait par mail sous forme de fichier Excel, avec une ligne par jour, sur toute la période de la prévision.

« Ce process simple permet en plus au marketing d’itérer et de tester plusieurs combinaison d’offres ou plusieurs combinaisons d’événements à venir », se réjouit Clément Marchal.

La deuxième partie du process débute une fois que le plan marketing est validé. Cette fois, ce sont les métiers (e-Commerce) qui vérifient que les prévisions sont cohérentes. Si tout va bien, les plans et les prévisions sont ensuite communiqués à la logistique et au service client, et confirmée au service marketing.

« Cette procédure a trois avantages majeurs : les équipes marketing sont autonomes, l’étape d’expertise métier permet d’éviter le coté boite noire de certains algorithmes, et le métier garde la main sur les prévisions », vante Clément Marchal.

Résultats : un gain de 15 points sur les prévisions après trois itérations

En plus des itérations pour améliorer les actions marketing, le projet a permis d’affiner les prévisions – faites auparavant sans Machine Learning – d’environ 15 points entre les forecasts et le CA effectivement réalisé.

Deux années entières de données pour l'apprentissage de l'algorithme

Pour la phase d’apprentissage de l’algorithme, le responsable ne « veut pas dévoiler de secrets ». Il avoue néanmoins que « nous avons appris sur une période de deux années » et sur des données consolidées par les métiers pour éviter les anomalies de reporting (logs ou CA incomplets).

Plus précisément, le modèle a scanné les résultats et les plans marketings des deux dernières années. Puis la validation «  a été réalisée avec une base de test sur laquelle on a lancé des prévisions puis nous avons regardé le gap entre le résultat prédit et le CA réel », explique Clément Marchal.

Son équipe a fonctionnés par Stream de trois à 3 à 4 semaines sur les étapes d’exploration de la donnée, de data préparation, et de modélisation. « Cela nous a permis de faire les premières prévisions et les premiers modèles rapidement ».

Ensuite, Sephora a itéré sur ces étapes pour affiner l’outil. « Il nous a fallu environ trois itérations pour arriver à des prévisions de qualité », évalue le responsable.

Face à la pertinence des prévisions, la logistique et le service client de Sephora – conquis d’après Clément Marchal - s’appuieraient désormais sur ces évaluations pour gérer leurs effectifs respectifs. Quant à l’automatisation, elle aurait permis au service marketing de se concentrer sur des actions à fort potentiel stratégique.

Témoignage recueilli lors du salon Big Data Paris 2018

Pour approfondir sur Big Data et Data lake

Close