Roland Garros : IBM collecte plus de 3 millions de données pendant le tournoi

IBM utilise ces données collectées sur site ainsi qu’un historique de 8 années des tournois du Grand Chelem pour livrer des statistiques fines aux grand public et aux médias.

Plus de 3 millions de données collectées, 10.000 ports Ethernet, 40 km de câble, 4 datacenters publics et 2 privés, des applications analytiques, des équipes techniques, de statisticiens, de support et marketing. C’est une partie du dispositif  IT mis en place par IBM pour collecter les données du tournoi de tennis de Roland Garros, qui a démarré cette semaine à Paris.

En plus de 30 ans de partenariat avec la Fédération Française de Tennis (FFT), IBM a tissé une infrastructure IT et numérique de plus en plus ajustée aux besoins des supporters sportifs. Ce dispositif déployé à Paris est en fait mutualisé à l’ensemble des tournois du Grand Chelem – qui en compte 4. Ce qui constitue d’ailleurs un vivier d’informations dont IBM se sert depuis plusieurs dizaines d’années pour mesurer, quantifier et analyser les évolutions du sport. Tout en conservant certaines spécificités propres à chacun des tournois.

Pour cette édition 2017 – et comme habituellement -, IBM assure la création et la maintenance du site Web de l’événement, de la collecte et de l’analyse de données qui serviront à alimenter en informations les différents canaux mis en place auprès du grand public et des fans (y compris les panneaux d’affichage et le site Web), des journalistes et de l’ensemble des médias télévisuels, voire auprès des joueurs et des coaches.

Big Blue a également développé cette année un assistant virtuel (nommé Gary), au cœur de l’application mobile de l’événement, qui permet d’améliorer la relation des fans avec le tournoi – une priorité de la FTT pour 2017.

Une collecte de données hétérogènes

Dans ce contexte, les données issues de l’événement sont assimilables à du carburant. La collecte de 3 millions de données pendant toute la durée de l’événement est le résultat de méthodes à la fois automatisées et manuelles, résume Claire Herrenschmidt, responsable des sponsorings sportifs chez IBM.

La collecte automatisée est par exemple effectuée par le truchement de radars alignés sur les courts de tennis. Ceux-ci vont alors mesurer la vitesse de la petite balle jaune, frappée par les 2 joueurs, lors des services et des échanges. Historiquement, il s’agit d’ailleurs du premier véritable « thermomètre » technologique mis en place sur Roland Garros pour accéder à des analyses statistiques.

A cela, s’ajoute un réseau de caméras Hawk-Eye – opérées par France Télévisions – dont l’objectif est de récupérer des données sur les déplacements des joueurs et de la balle. Sont ainsi mesurées la trajectoire, la distance parcourue des joueurs lors du match, la profondeur des retours par exemple, liste Claire Herrenschmidt.

Si ces données sont essentielles aux informations qui seront par la suite livrées aux spectateurs, elles ne sont en revanche pas utilisées par le corps arbitral de Roland Garros – contrairement aux autres arbitres des tournois du grand chelem (Open d’Australie ou Wimbledon par exemple). A Paris, l’empreinte laissée par la balle sur la terre battue fait encore office de marque référence.

A ce dispositif s’ajoute encore deux collecteurs (des passionnés de tennis) au bord de chaque court. Ces personnes observent les matches et les comportements des joueurs, qu’ils transcrivent en information, à la main, sur des terminaux numériques. Ils évaluent par exemple le carré de service, le nombre d’échange, de points gagnés en coup droit ou revers, le type de fautes (directes ou provoquées).

Au total, une dizaine de données sont remontées à chaque point, collectées en temps réel donc à travers plusieurs sources mises en place sur l’événement même.  Celle-ci sont notamment stockées dans DashDB, l’entrepôt de données Cloud d’IBM. Le système s’adosse également à Spark et SPSS, la solution d’analytique de Big Blue.

Pour l’heure, les joueurs ou le matériel ne sont pas équipés de capteurs – comme peut le faire IBM sur une course cycliste aux Etats-Unis.

Ces données in-situ, sont nesuite ernrichie par IBM avec des données issues de collectes effectuées depuis plusieurs années sur l’ensemble des tournois du Grand Chelem, afin de réaliser des analyses bâties cette fois sur des Big Data.

Les clés du match

C’est par exemple le cas avec ce qu’IBM appelle « les clés du match ». Accessible depuis rolandgarros.com, ce module est une fonction de l’application SlamTracker qui livre une kyrielle de statistiques live pendant les matches.

« Les clés du match » proposent trois éléments statistiques (identifiés par les analystes d’IBM) qu’un joueur doit réunir pour avoir le plus de chance de remporter le match. Les 8 années de données collectées par IBM pour chaque joueur évoluant lors des tournois représentent 41 millions de points, explique la responsable d’IBM.

Si la FFT est propriétaire des données collectées, les statistiques peuvent ensuite être transmises aux coaches et aux joueurs, afin d’évaluer leur progression ou pour s’en servir comme base d’un programme d’entrainement.

L’ensemble des données sont consolidées sur le site Web au sein d’un flux en temps réel mis en place pour chaque match, ou dans l’application SlamTracker.

Certaines trouvent également refuge sous la forme de statistiques, incrustées dans les images diffusées par France Télévisions. IBM installe un statisticien dans chaque car-régie placé sur les 8 courts de Roland Garros. A partir de son tableau de bord, le statisticien dispose d’une vue globale des informations et pousse directement au réalisateur de l’émission les statistiques qu’il juge intéressantes.

Watson, dans l’ombre de Roland

Evidemment, Watson est au cœur de ce dispositif, mais l'AI d'IBM n’intervient pas forcément dans l’analyse de données collectées sur place. En revanche, le moteur cognitif d’IBM est présent pour analyser le trafic et permet d’afficher l’information en temps réel la plus pertinente aux visiteurs du site.

Watson Analytics rédige également automatiquement un résumé des informations clefs à partir des statistiques d’un match. Claire Herrenschmidt assure que des tests sur d’autres informations moulinées par Watson sont actuellement en cours et devraient être publiées sur le site durant le tournoi.

Le moteur de reconnaissance visuelle de Watson a également été implémenté au cœur d’une solution de stockage d’images et de photos prises lors de l’événement. Dans ce contexte, Watson automatise la classification des fichiers en les taggant à la volée, facilitant ainsi leur recherche a posteriori – par les médias notamment.

Enfin, l’ensemble de l’infrastructure IBM est scruté par Watson for Cyber Security. En début de semaine, plus d’un million d’attaques avaient été comptabilisées et stoppées.

Pour approfondir sur Base de données

Close