Deep Learning et apprentissage par renforcement repoussent les limites de l’IA

L'association de ces deux types d’Intelligence Artificielle promet de donner naissance à des applications encore plus évoluées.

L’apprentissage par réseaux de neurones profonds (Deep Learning) a excellé dans des tâches comme la classification pour la reconnaissance d’images et de la parole. Les techniques d’apprentissage par renforcement, elles, ont excellé dans la création de systèmes qui s’auto-améliorent par essais/erreurs pour, par exemple, mettre au point des bots capables de maîtriser des jeux ou des moteurs de recommandation.

Lors du Re-Work Deep Reinforcement Learning Summit à San Francisco, plusieurs chercheurs en Intelligence Artificielle ont expliqué qu’ils exploraient une combinaison des deux approches pour créer des algorithmes d’apprentissage par renforcement plus automatisés et plus optimisés.

« Au cours des six dernières années, nous avons concentré nos efforts pour rendre cette combinaison plus stable et plus fiable », explique Marc Bellemare, chercheur chez Google Brain.

Une grande partie des précédents travaux de son équipe dans l’apprentissage par renforcement avait été d’élaborer les caractéristiques utilisées ensuite par les algorithmes dans des applications comme les jeux vidéo ou la recommandation de traitements médicaux.

« Maintenant, avec les réseaux profonds, nous pouvons automatiser ce processus et permettre au système de découvrir ses caractéristiques par lui-même. Cela s’est avéré très puissant ».

Les jeux vidéo Atari ont été un champ naturel à la plupart de ces recherches. Ils sont assez simples et permettent donc de mesurer facilement la précision et la performance des différents algorithmes. En d’autres termes, ces environnements sont idéaux pour développer les fondamentaux de la double approche.

Marc Bellemare espère aujourd’hui transférer ces méthodes à la résolution de problèmes plus complexes. Google a même créé un framework open source – Dopamine (du nom de la molécule qui, semble-t-il, favorise l’apprentissage par renforcement chez l’homme) – pour développer et tester des algorithmes d’apprentissage par renforcement profond (« Deep Reinforcement Learning »).

L’apprentissage par renforcement existe depuis plus de 30 ans. Mais ses progrès se sont accélérés au cours des six dernières années… avec l’avènement du Deep Learning. Marc Bellemare estime même que l’ajout du Deep Learning a permis de tripler les performances de l’apprentissage par renforcement.

L’un des progrès les plus importants a été la mise au point de techniques d’apprentissage par renforcement distributif. Plutôt que de se concentrer uniquement sur les résultats de sortie d’un algorithme, ces techniques tentent de prédire également la variété et la dispersion de ces résultats.

Les chercheurs ont également constaté des améliorations spectaculaires dans la faculté à automatiser le développement d’algorithmes d’apprentissage par renforcement, ainsi que dans la capacité d’étendre leur exécution à des clusters de compute distribués.

Le défi de la généralisation

Au fur et à mesure que des algorithmes s’améliorent dans la résolution de problèmes donnés – comme finir le niveau d’un jeu vidéo -, ils peuvent parfois devenir moins précis lorsqu’on les confronte à de nouveaux défis – comme de nouveaux niveaux dans ce jeu.

Pour résoudre ce problème, Karl Cobbe, chercheur chez OpenAI, a exploré différentes approches. Les premiers travaux de son équipe dans l’apprentissage d’un algorithme destiné à jouer à « Sonic the Hedgehog » ont donné de bons résultats lorsque les niveaux étaient assez proches et semblables les uns des autres. Mais dès que les niveaux étaient différents, les résultats n’étaient plus bons. Par contraste, un humain n’aurait eu besoin que d’un ou deux niveaux du jeu pour comprendre ce qui se passait, avance Karl Cobbe.

Ses chercheurs ont alors conçu une ébauche de variante de Sonic, appelée CoinRun, qui imite les éléments du jeu et qui permet de générer massivement de nouveaux niveaux de manière automatisée en s’appuyant sur un deuxième algorithme (par génération procédurale).

La recherche a, semble-t-il, porté ses fruits. Les algorithmes formés sur ces niveaux (et dopés à la génération procédurale) fonctionnent mieux que les précédents lorsqu’ils sont confrontés à de nouveaux niveaux.

Étonnamment, Karl Cobbe et son équipe ont aussi constaté que l’entraînement de l’algorithme ne ralentissait pas significativement, comparé à celui des algorithmes formés sur de plus petits ensembles de niveaux. Le chercheur estime aujourd’hui que cette approche pourrait être employée pour d’autres types de tâches.

Donner le toucher aux robots.

Un autre domaine de recherche est celui des algorithmes d’apprentissage par renforcement profond qui peuvent être entraînés sur des données provenant de capteurs multiples (IoT). Par exemple, des chercheurs de Facebook tentent de donner le sens du toucher à des bras (et des mains) robotiques pour améliorer leurs dextérités et leurs précisions.

« Nous avons montré qu’il était possible d’améliorer considérablement la préhension (N.D.T. capacité à saisir un objet) en utilisant le sens tactile en plus de la vision », se félicite Roberto Calandra de Facebook AI Research.

Ce projet s’appuie sur des capteurs tactiles mis au point par le MIT, les GelSight. Le véritable défi ici consiste à mettre au point des algorithmes qui prennent en compte le plus de données sensorielles d’inputs possible d’une manière qui ait du sens.

Une application pourrait par exemple être l’AgriTech (déjà friande d’IA) avec la cueillette automatisée des fraises, où il est souhaitable que le robot applique la force minimale nécessaire pour qu’il n’écrase pas le fruit.

« Nous espérons qu’en étudiant ce genre de problèmes très difficiles qui consistent à comprendre les modalités de capteurs multiples, nous pourrons mettre au point des algorithmes qui pourront ensuite être utilisés dans différents scénarios IoT [dans la domotique ou à l’Hôpital] », espère Roberto Calandra. « Ce genre de recherche vise à trouver des moyens d’utiliser ces données pour comprendre ce qui se passe et peut-être prendre de meilleures décisions ».

Pour approfondir sur Outils décisionnels et analytiques

Close