Pourquoi Solocal a basculé sa plateforme Big Data vers le cloud

La Data est au cœur de l’activité de Solocal et après l’ère des Data Warehouse, du Big Data avec Hadoop, le Français aborde celle du cloud et de l’IA avec Microsoft et Google. C’est vers le second que Solocal a choisi de migrer son Data Lake.

Sans doute plus connu pour le nom de ses services PagesJaunes, Mappy ou Ooreka, Solocal est un poids lourd du marketing Internet des PME en France. « Si une boulangerie veut faire venir 20 clients de plus tel jour dans sa boutique, c’est vers nous qu’elle doit se tourner » a ainsi expliqué Arnaud Defrenne, CTO du groupe Solocal aux participants de la conférence Google Summit 2019, où il a présenté la migration du Data Lake Hadoop de son entreprise vers Google BigQuery.

Arnaud Defrenne, CTP Solocal Arnaud Defrenne, CTP de
Solocal lors du Google Cloud
Summit qui s’est tenu à Paris
le 18 juin 2019.

L’ancien directeur des technologies marketing de L’Oréal a ajouté : « Nous sommes ce que l’on peut qualifier aujourd’hui d’Adserver programmatique hyperlocal, avec près de 500 000 clients et des visiteurs de Mappy qui sont extrêmement intentionnistes. »

Pour optimiser les publicités que Solocal pousse pour le compte de ses clients sur ses sites, Solocal traite beaucoup de données. Ses sites représentent 2,4 milliards de visites par an, soit 14,4 milliards d’impressions, ce qui représente la 7ième audience Internet de France. Outre la communication sur ces services, le Français mène plus de 50 000 campagnes par an sur Google Adwords ou Facebook Ads, ce qui draine de l’ordre de 100 000 leads par mois vers les sites de ses clients. Enfin, Solocal produit 450 000 sites Web pour les PME qui lui confient leur présence Web.

Ce nouveau positionnement en « coopétition » avec Google plutôt qu’en compétition frontale, est l’un des volets de la stratégie « Solocal 2020 » dévoilée par Eric Boustouller en février 2018. L’actuel directeur général de Solocal fut président de Microsoft en France, puis en Europe pendant de nombreuses années et vise aujourd’hui à relancer Solocal avec de nouvelle offres marketing à destination des PME.

Outre un plan de suppression de 1 000 emplois sur les 4 500 personnes que comptait l’entreprise, ce plan marque aussi une nouvelle approche technologique basée sur le cloud tant pour son informatique interne (ERP, CRM) que pour produire ses services. Peu avant l’annonce du plan « Solocal 2020 », Arnaud Defrenne signait un partenariat avec Microsoft pour sous-tendre la nouvelle stratégie « Cloud First » de Solocal, mais pour porter son Data Lake, le CTO a choisi de ne pas mettre tous ces œufs dans le même panier et a privilégié une offre rivale à Azure.

Netezza a fait place à Hadoop en 2015

L’activité de Solocal s’appuie sur une plateforme Data qui représente aujourd’hui 240 To de données. Au début des années 2010, Solocal avait fait le choix de la solution IBM Netezza pour stocker ses données. La solution était alors le nec plus ultra pour héberger des Data Warehouse de grande envergure, avec une architecture matérielle massivement parallèle et une base de données taillée pour les gros volumes.

« Il s’agit d’une architecture dont la scalabilité est verticale, ce qui posait la question du coût de remplacement des baies. »
Arnaud DefrenneCTO, groupe Solocal

Cette architecture va être exploitée jusqu’en 2015, mais alors que les volumes de données s’accroissent, Solocal se heurte aux limites techniques de cette solution basée sur une appliance spécialisée : « Il s’agit d’une architecture dont la scalabilité est verticale, ce qui posait la question du coût de remplacement des baies. » Dès 2013 un cluster Hadoop est mis en place, celui-ci s’appuyant alors sur la distribution Cloudera de la plateforme Big Data Open Source.

La solution permet alors à Solocal d’absorber les centaines de millions de lignes générées par la fréquentation des sites de Solocal  et si Spark apporte un second souffle à la plateforme en termes de performances de traitement pour les utilisateurs, le Français atteint rapidement les limites d’Hadoop au niveau de la charge opérationnelle que la plateforme représente.

« Le Data Lake unique est une utopie » estime le CTO qui pointe à la fois l’importance des ressources humaines nécessaires à l’administration des clusters, la difficulté de maintenir des SLA de haut niveau dans un environnement multi-tenant et encore la complexité du monitoring de telles architectures.

Enfin, exploiter une telle infrastructure en « on-premise » pose la question de l’élasticité effective du Data Lake puisqu’il faut provisionner des serveurs physiques lorsque la demande de ressources de stockage dépasse la capacité installée. Solocal devait migrer sa plateforme afin de pouvoir faire face à la croissance inexorable des volumes de données traitées par ses équipes, aller vers un stack technique moins lourd à administrer, abaisser les coûts opérationnels et enfin accroitre le « Time to market » des nouveaux services.

7 mois pour migrer avant l’arrêt des datacenters

Solocal était sans doute mûr pour migrer son Data Lake dans le cloud et c’est vers Google que s’est tourné le CTO pour faire évoluer à nouveau son infrastructure Data. Le partenariat avec Google Cloud est signé en novembre 2018 mais le couperet est clair pour Arnaud Defrenne : les datacenters de Solocal doivent être éteints en août 2019. Le CTO a donc 7 mois pour migrer des centaines de To de données.

« Nous avons préféré le choix d’une migration de notre Data Lake vers BigQuery afin de profiter au mieux des technologies proposées par Google. »
Arnaud DefrenneCTO, groupe Solocal

« Ce fut un défi organisationnel, car 5 équipes différentes travaillent sur les données et on ne pouvait arrêter le système pour réaliser la migration. Nous avions donc 7 mois devant nous pour mener une migration en “double run”. Un simple Lift & Shift aurait sans doute été la solution la plus simple mais aurait créé peu de valeur, puisque cela nous aurait sans doute permis d’optimiser notre existant mais sans le transformer. Nous avons préféré le choix d’une migration de notre Data Lake vers BigQuery afin de profiter au mieux des technologies proposées par Google. »

Les chiffres livrés par le CTO donnent le tournis puisque le Data Lake regroupe 15 bases de données différentes, d’un volume total de 240 To. Cela représente 62 pipelines d’alimentation de données. En outre, la plateforme traite 320 millions de messages par jour, soit 300 Go de données échangées entre les services internet de l’entreprise et son Data Lake.

Enfin 500 To sont lus chaque mois sur les clusters HDFS pour les traitements de données et par les requêtes des Data Scientist. « Deux équipes ont travaillé en permanence sur cette migration pendant 6 mois, soit une douzaine de personnes sur la migration, puis une équipe de 6 personnes a travaillé sur les améliorations à apporter sur la plateforme cible. »

Le but de la migration était de remplacer le back-office Data, mais aussi de maintenir inchangé tous les outils front-office utilisés par les équipes Solocal dans un premier temps. Ces équipes utilisent notamment les outils MicroStrategy ou SAS qui restent en production. Seule la source de données diffère pour les utilisateurs finaux.
Dans un deuxième temps, l’équipe projet met en place des dashboards avec Google Studio ainsi que sous Tableau, en fonction du besoin. D’autre part, le CTO regarde avec le plus grand intérêt la plateforme décisionnelle Looker acquise par Google Cloud en juin dernier.

Le portefeuille de services Google Cloud consommés par Solocal s’étend rapidement

Si l’accord Solocal / Google Cloud est initialement présenté comme un moyen pour le Français d’accéder aux technologiques d’Intelligence artificielle du Californien, le nombre de services Google consommés par Solocal va bien au-delà des seules fonctions de Machine Learning de Google Cloud.

« Nous avons aujourd’hui beaucoup de projets qui mettent en œuvre le Machine Learning. »
Arnaud DefrenneCTO, groupe Solocal

Outre Big Query pour héberger ses données, Solocal sollicite de multiples services de la plateforme Cloud Google. Parmi eux, Google Dataflow, BigQuery BI Engine mais aussi, plus récemment, Google Data Catalog, Google Datalab, Data Studio, Data Prep et Fusion. « Nous avons aujourd’hui beaucoup de projets qui mettent en œuvre le Machine Learning, notamment pour ce qui est des calculs de prévision de chiffres d’affaires ou des calculs très spécifiques à notre activité, comme la recherche du moment le plus efficace pour un client d’acheter de la publicité à moindre coût. »

En initiant une stratégie de migration vers le cloud, Solocal peut désormais lutter avec les mêmes armes que ses rivaux américains, un paradoxe quand on sait que Google se pose en concurrence frontale avec les services de Solocal.

Pour approfondir sur Datawarehouse

Close