Chercheur : 
Glen Berseth

Établissement : 
Université de Montréal

Année de concours : 
2022-2023

Alors que les humains planifient et résolvent des tâches avec facilité, les agents simulés et robotiques ont du mal à reproduire la même fidélité, la même robustesse et les mêmes compétences. Par exemple, les humains peuvent se développer pour effectuer une gymnastique incroyable, prouver que les trous noirs existent et produire des œuvres d’art, le tout à partir du même système d’apprentissage de base. Si nous pouvons concevoir un agent avec une capacité d’apprentissage similaire, l’agent peut acquérir des compétences par l’expérience, sans avoir besoin de systèmes de planification ou de supervision conçus par des experts. Dans ce travail, je propose un ensemble de développements importants sur les méthodes d’apprentissage actuelles dans les domaines de la planification à long terme et de l’apprentissage autonome sans orientation ni supervision humaine. Je montre comment la modularité et la réutilisation des politiques peuvent être utilisées pour relever les défis de la planification à long terme. Pourtant, l’apprentissage à l’aide des méthodes RL actuelles nécessite des types de supervision faciles à trouver en simulation mais coûteux dans les mondes ouverts et réels. Je discuterai de la façon de développer des agents d’apprentissage plus polyvalents qui ne nécessitent pas de contraintes de données coûteuses ou irréalistes.