Afficher la pageAnciennes révisionsLiens de retourAjouter au livre.Exporter en PDFHaut de page Cette page est en lecture seule. Vous pouvez afficher le texte source, mais ne pourrez pas le modifier. Contactez votre administrateur si vous pensez qu'il s'agit d'une erreur. * {{http://edauce.perso.centrale-marseille.fr/visible/Cartpole PG.ipynb|Algorithme du policy gradient (notebook)}} * {{https://nbviewer.jupyter.org/urls/edauce.perso.centrale-marseille.fr/visible/Cartpole PG.ipynb|Algorithme du policy gradient (nbviewer)}} * {{https://spinningup.openai.com/en/latest/spinningup/rl_intro3.html|Voir également cette page pour des explications plus détaillées}} - Tester cet algorithme dans les {{https://github.com/openai/gym/wiki/Leaderboard|différents environnements proposés dans la librairie OpenAI Gym}} - Parmi ces environnements, pour lesquel(s) est-il adapté? Pour lesquels n'est-il pas adapté? - Parmi les environnements adaptés, quels sont ceux sur lesquels il échoue? Quels sont ceux sur lesquels il réusit (au moins partiellement) à accomplir la tâche proposée? - Sur un de ces environnements, proposez un tableau comparatif des performances obtenues pour différentes valeurs des paramètres principaux (learning rate, gamma) - Quelle solution proposez-vous pour adapter cet algorithme au cas des actions à valeurs continues? - Quelle solution proposez-vous lorsque les entrées sont des images pixelisées d'émulateurs de jeux vidéos? public/rl_tp5.txt Dernière modification : 2020/01/23 01:19de edauce