blobbotronic - stock.adobe.com

Deep Learning : Google verse GPipe et TensorFlow Privacy à l'open source

L'équipe R&D en intelligence artificielle de Google a conçu GPipe comme un framework pour construire des réseaux neuronaux profonds à grande échelle, de manière économe en ressources et fiable. TensorFlow Privacy garantit la confidentialité des données utilisées pour entrainer les algorithmes de Deep Learning.

Google a décidé de rendre open source deux bibliothèques d'apprentissage statistique (Machine Learning). La première est conçue pour créer des réseaux neuronaux profonds (Deep Learning) à grande échelle, plus rapidement, plus simplement et potentiellement avec moins de puissance de calcul. La deuxième pour mieux prendre en compte la confidentialité de certaines données qui pourraient être utiles dans des projets de Deep Learning, mais dont la nature critique est un frein pour les ingérer dans ce type d'initiatives.

GPipe

Baptisé GPipe, la première bibliothèque a été publiée sur GitHub le 4 mars.

Cette décision s'inscrit dans une tendance de fond. Les grands acteurs IT - comme Google, AWS ou Facebook - sont en train de rendre plusieurs de leurs outils de développement d'intelligence artificielle open source, alors même qu'ils s'efforcent d'en garder d'autres propriétaires pour mieux les monétiser.

« GPipe est un grand pas en avant vers la démocratisation de l'IA », se félicite Mike Gualtieri, analyste principal de Forrester. « Rendre cet outil disponible en open source permettra à un plus grand nombre de personnes de tirer partie de la puissance d'un Machine Learning distribué pour créer des modèles plus précis et pertinents. »

Créé par Google AI, la branche R&D en intelligence artificielle de Google, GPipe répartit les modèles sur différents accélérateurs GPU et TPU (Tensor Processing Unit), d'une manière qui permette de les faire fonctionner en parallèle.

Selon un compte rendu de recherche de Google AI publié fin 2018, GPipe répartit différents échantillons d'apprentissage en "mini-batchs" pour mieux déterminer les erreurs du modèle, puis en "micro-batchs" encore plus petits. Différents accélérateurs peuvent travailler sur différents micro-batchs en simultanée.

GPipe serait un moyen plus rapide, plus efficace et moins gourmand en mémoire pour entrainer des réseaux neuronaux artificiels, ce qui - selon Mike Gualtieri - pourrait être une très bonne nouvelle pour les chercheurs et pour les Data Scientists en charge de projets en production dans les entreprises.

TensorFlow Privacy

Au cours des dernières années, les chercheurs de Google ont publié de nombreux outils d'IA, dont des jeux de données, du code et des logiciels. L'une des contributions les plus importantes a certainement été TensorFlow.

Développé à l'origine pour un usage interne par Google Brain, l'équipe de Deep Learning, TensorFlow a été rendu disponible en open source à la fin de 2015. Connaître TensorFlow est maintenant quasiment devenu une exigence pour les professionnels du Machine Learning.

Récemment, Google a publié une nouvelle version de son framework pour JavaScript, une version qui, semble-t-il, a déjà emporté l'adhésion des développeurs.

En parallèle à GPipe, l'équipe en charge de TensorFlow a fait savoir le 6 mars qu'elle avait ouvert un autre outil : TensorFlow Privacy.

TensorFlow Privacy permet de créer des modèles de Machine Learning en gardant les données sources anonymes.

Désormais disponible sur GitHub, TensorFlow Privacy utilise des techniques qui découlent du concept de « confidentialité différentielle » (differential privacy) - qui permettent aux modèles d'IA d'utiliser des informations privées, mais pas de les mémoriser.

Le concept n'est pas nouveau - il est déjà utilisé dans de nombreux produits et services d'IA - mais selon Google, avec TensorFlow Privacy, les développeurs pourront plus facilement exploiter ce champ pour assurer la confidentialité et la sécurité des données de leurs clients ou de leur entreprise.

Pour approfondir sur Outils décisionnels et analytiques

Close