Comment le Big Data améliore le modèle des objets connectés

A l’occasion du salon Dataworks Summit qui se tenait courant avril à Munich pour réunir la communauté Hadoop, LeMagIT a recueilli des témoignages portant sur le déploiement de projets Big Data. Réussis ou pas, ces projets livrent des expériences de terrain disparates. Aujourd’hui, le témoignage de Michael Bironneau, directeur technologique d’Open Energi, un spécialiste des systèmes de surveillance des équipements industriels. Il revient sur les gains apportés par le Big Data dans les objets connectés

par

Yann Serra, LeMagIT

Publié le: 05 mai 2017

Michael Bironneau est le directeur technologique d’Open Energi, une entreprise anglaise qui pose des systèmes de surveillance sur les équipements industriels (réfrigérateurs, pompes à eau, chaudrons à bitume...). Ces systèmes servent à mesurer la consommation électrique pour la remonter en temps réel au réseau national. Le but de ces objets connectés est de mieux répartir la distribution de courant sur le territoire britannique et baisser la facture des clients finaux.

Diviser par 5 le coût du stockage

« Open Energi a été créée pour traiter des données et, en ce sens, l’arrivée continue de nouveaux outils Big Data améliore sans cesse notre activité. Au départ, nous stockions et traitions les données collectées par nos appareils dans une base SQL sur un SAN. Passer à un datalake Hadoop hébergé dans le cloud public Azure (que nous gérons avec l’outil CloudBreak d’Hortonworks), nous a d’abord permis de diviser par cinq le coût du stockage. Avec ce dispositif, nous sommes capables d’envoyer un relevé en 5 secondes au distributeur d’énergie National Grid, ce qui est amplement suffisant pour qu’il ajuste en temps quasi-réel la distribution d’énergie vers ce client. »

Accélérer le déploiement de nouveaux algorithmes

« Initialement, Les données étaient traitées directement sur les 1000 appareils de surveillance déployés chez nos clients puis envoyées dans notre Cloud. C’était compliqué car cela faisait beaucoup de codes différents à maintenir, sachant que ces appareils ne mesuraient pas tous la même chose. Avec l’arrivée des moteurs de traitements de flux de données à la volée (Apache Nifi pour organiser les flux, Apache Storm et Flink pour leur appliquer une succession d’opérations) dans la distribution HDF d’Hortonworks, nous avons eu l’idée de déporter l’analyse de données dans le Cloud. Cela nous débarrasse de la complexité d’aller mettre à jour tous les appareils. C’est en quelque sorte une standardisation qui nous rend plus rapide pour déployer un nouvel algorithme d’analyse de données et qui nous coûte moins cher en temps de maintenance. »

Le Machine Learning pour prédire la consommation

« Avec Nifi, Storm et Flink, nous faisions du traitement assez basique sur les données : conversion de format, calcul de moyennes, etc. Suite à l’arrivée, il y a un an, des systèmes de Machine Learning - à savoir Scikit-learn pour apprendre l’enchaînement des données, TensorFlow pour créer un modèle de réseau de neurones et Keras pour distribuer le réseau de neurones sur plusieurs nœud - , l’un de nos ingénieurs a découvert qu’il pouvait prédire l’évolution de la consommation d’un équipement. Concrètement, cela nous permet d’étendre nos services aux entreprises qui produisent elles-mêmes leur énergie (par exemple via des panneaux solaires) pour leur dire comment ils peuvent réaliser des économies en la distribuant mieux entre leurs équipements. Notre activité s’est envolée : aujourd’hui, nous sommes ainsi passés à plus de 3000 systèmes de surveillance sur près de 400 sites.

SQL pour analyser les flux de données

« La prochaine évolution de notre activité sera très certainement liée à l’intégration récente des requêtes SQL dans Apache Storm et Apache Flink. Cela va nous permettre de tester les flux de données Nifi en passant par le service Analytics d’Azure et, ce, avec du code Java simple, pour produire des interfaces de contrôle utilisables par des non-informaticiens.

« Finalement, ce qui coûte cher dans notre activité, c’est l’équipement pour remonter les données ; ce que nous pouvons en faire ensuite n’est limité que par notre imagination. C’est ça, le gros avantage du Big Data Open Source. »

Comment le Big Data améliore le modèle des objets connectés

Diviser par 5 le coût du stockage

Accélérer le déploiement de nouveaux algorithmes

Le Machine Learning pour prédire la consommation

SQL pour analyser les flux de données

Pour approfondir sur Outils décisionnels et analytiques

Ingestion de données : avec Datastream, Snowflake chasse sur les terres de Confluent

Au nom de l’IA, Cloudera affûte sa stratégie hybride

Openflow : Snowflake veut unifier l’ingestion des données structurées et non structurées

OKDP : le TOSIT fait la jonction entre Hadoop et la « Modern Data Stack »