bluebay2014 - Fotolia
Spark, un compagnon logique pour l’Internet des objets
Analyser les avalanches de données issues de l’Internet des objets et les intégrer dans les équipements industriels sont des cas d’usage clé de l’IoT. Spark pourrait y tirer son épingle du jeu.
Spark, la coqueluche des frameworks Open Source liés au Big Data, pourrait bien jouer un rôle central dans la capacité des entreprises à manipuler la masse de données de l’Internet des objets. C’est une des conclusions que nous aurions pu tirer de la conférence IoT Data Analytics & Visualization, qui s’est tenue aux Etats-Unis en février dernier.
Les technologies qui entourent l’IoT sont parmi celles qui suscitent actuellement le plus d’intérêt, mais pour rendre utilisables ces données générées par des réseaux de capteurs, les entreprises doivent pouvoir les collecter, les traiter et les analyser. C’est là que Spark entre en jeu. Ce framework distribué excelle justement à exploiter de grands volumes de données. Son point fort : la rapidité. Ce qui en fait un choix logique pour analyser ces données de l’IoT.
« Spark est idéal pour l’Internet des objets », affirme Ashok Srivastavan, data scientist en chef chez Verizon. Il dirige une équipe de recherche qui expérimente des méthodes d’analytiques avancées et de machine learning sur les données de l’entreprise pour y déceler d’éventuels nouveaux canaux de revenus.
Spark permet de manipuler différents types de données
Par exemple, son équipe examine de près le trafic réseau pour mieux prédire les différents pics et courbes à venir. Elle collabore également avec les services de Verizon dédiés au secteur de l’agriculture pour optimiser les cultures et augmenter les rendements. Les équipes s’appuient pour cela sur les données de capteurs pour connaître les plantes les plus adaptées à certains environnements et les conditions météo adéquates.
A chaque scenarii, les types de données sont multiples et Spark sait bien gérer cela. L’équipe de Verizon s’appuie aussi sur des capacités de machine learning et de streaming pour des applications à faible latence. « Avoir la capacité d’exploiter cette diversité en matière de données est très porteur de valeur », ajoute Ashok Srivastavan. «Pouvoir tirer profit de ces structures de données hétérogènes nous ouvre de nouvelles opportunités. »
Pour Soundar Srinivasan, en charge de l’ingénierie et des services de data mining chez Robert Bosch, le principal avantages de Spark est sa capacité à s’interfacer avec une grande variété de systèmes. Robert Bosch est devenu un grand consommateur de technologies de l’IoT pour contrôler les processus de fabrication de ses produits. En assemblant des données issues des lignes d’assemblage, il peut identifier certains dysfonctionnements, comme les ralentissements, et appliquer des modifications à la chaîne.
L’analyse prédictive pour économiser des coûts de fabrication
Dans le cadre d’une pompe hydraulique pour le marché de l’agriculture, Soundar Srinivasan et son équipe ont pu identifier des redondances dans les tests de qualité qui freinaient la mise à disposition du produit sur le marché. Ils se sont appuyés sur l’analyse prédictive pour prédire les résultats des tests. Une fois cette analyse ajustée, la ligne d’assemblage n’avait plus à passer tous les tests. Cela a réduit la chaîne de tests et la phase de calibration de 35% - et au final, fait économiser un demi-million de dollars à l’année.
« Ce que nous avons essayé de faire était d’utiliser des séries de données et leurs analyses pour accélérer la mise sur le marché, mais sans dégrader la qualité », assure-t-il.
Selon lui, Spark est une plateforme idéale pour gérer cela car son équipe s’adosse aussi à d’autres outils : Sqoop pour ingérer les données, Hive pour les stocker, R et Python pour les analyser et construire des modèles prédictifs, et Tableau pour visualiser les résultats. Spark s’insère au centre de ces composants.
Certains ne misent pas sur Spark
Malgré tout cela, Spark ne fait pas encore l’unanimité, comme moteur analytique pour l’IoT. Emil Berthelsen, analyste principal chez Machina Research, soutient par exemple que Spark peut certes être très utile pour développer une plateforme pour l’IoT. Mais selon elle, il ne s’agit pas du meilleur outil pour supporter les applications d’analyse de données pour ce secteur.
La raison ? Emil Berthelsen affirme que ce que propose Spark en matière de traitement des données et d’analytique n’est pas suffisant pour les spécificités de l’IoT. Les outils plus traditionnels de gestion et d’analyse des données, comme celles de SAS Institute ou d’IBM par exemple, permettent de bien gérer les données structurées à des intervalles prédéfinis. Mais elles ne répondent pas bien face à des environnements changeants comme ceux de l’IoT. Pour cela, il recommande d’avantage des outils comme Splunk.