Que signifie Apprentissage par renforcement?

L'apprentissage par renforcement (reinforcement learning, en anglais) est une méthode qui consiste à récompenser les comportements souhaités et/ou à sanctionner les comportements non désirés. Cette méthode d'apprentissage a été adoptée dans le domaine de l'intelligence artificielle afin de diriger l'apprentissage automatique non supervisé à l'aide de récompenses et de pénalités. Elle est utilisée dans les domaines de la recherche opérationnelle, de la théorie de l'information, de la théorie des jeux, de la théorie du contrôle, de l'optimisation fondée sur la simulation, des systèmes multi-agent, de l'intelligence distribuée, des statistiques et des algorithmes génétiques.

Les algorithmes d'apprentissage supervisé sont généralement entraînés à l'aide d'une série de réponses correctes connues, mais ce n'est pas le cas d'un agent d'apprentissage par renforcement qui apprend de l'environnement dans lequel il exécute sa tâche. La première étape consiste à concevoir la méthode qui sera utilisée pour récompenser les comportements souhaités et sanctionner les comportements négatifs. Des valeurs positives sont attribuées aux comportements souhaités pour le renforcement positif et des valeurs négatives aux comportements non souhaités pour le renforcement négatif.

L'agent est programmé pour essayer d'obtenir une récompense maximale et à long terme, afin que la solution créée soit optimale. Les objectifs à long terme permettent d'empêcher l'agent de traîner sur des objectifs de moindre importance en évitant de prendre des risques. De plus, des dispositifs sont ajoutés pour encourager l'exploration. Parfois, des processus de décision markoviens sont utilisés dans les décisions d'exploration pour qu'un agent puisse ignorer une récompense afin d'explorer. A cette fin, les développeurs peuvent ajouter un effet, tel que la curiosité, qui aidera l'agent à faire des découvertes.

Un algorithme d'apprentissage qui joue à Pac-Man peut avoir la possibilité de se déplacer dans l'une des quatre directions possibles, sauf quand il rencontre un obstacle. A l'aide de données pixel, un agent peut se voir attribuer une récompense numérique pour le résultat d'une unité de déplacement : 0 pour un espace vide, 1 pour une pac-gomme, 2 pour un fruit, 3 pour une super pac-gomme, 4 pour un fantôme après absorption d'une super pac-gomme, 5 si l'agent attrape toutes les pac-gommes et passe au niveau de jeu supérieur, mais 5 points en moins en cas de collision avec un fantôme.
L'agent commence en jouant de manière aléatoire pour progressivement affiner son jeu en apprenant à manger toutes les pac-gommes afin de passer au niveau de jeu supérieur. S'il dispose du temps nécessaire, il peut même apprendre une tactique, par exemple garder des super pac-gommes jusqu'à ce qu'il en ait besoin pour se défendre.

Etant donné qu'il repose sur le fonctionnement des systèmes biologiques, l'apprentissage par renforcement fait partie de l'informatique bio-inspirée. En tant que principe psychologique, l'apprentissage par renforcement est inspiré de la psychologie comportementale.