public:rl_tp5

LDAP: couldn't connect to LDAP server

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:rl_tp5 [2020/01/23 00:49] edaucepublic:rl_tp5 [2020/01/23 01:19] (Version actuelle) edauce
Ligne 1: Ligne 1:
 +  * {{http://edauce.perso.centrale-marseille.fr/visible/Cartpole PG.ipynb|Algorithme du policy gradient (notebook)}}
 +
 +  * {{https://nbviewer.jupyter.org/urls/edauce.perso.centrale-marseille.fr/visible/Cartpole PG.ipynb|Algorithme du policy gradient (nbviewer)}}
 +
 +  * {{https://spinningup.openai.com/en/latest/spinningup/rl_intro3.html|Voir également cette page pour des explications plus détaillées}}
 +
 +  - Tester cet algorithme dans les {{https://github.com/openai/gym/wiki/Leaderboard|différents environnements proposés dans la librairie OpenAI Gym}}
 +    - Parmi ces environnements, pour lesquel(s) est-il adapté? Pour lesquels n'est-il pas adapté?
 +    - Parmi les environnements adaptés, quels sont ceux sur lesquels il échoue? Quels sont ceux sur lesquels il réusit (au moins partiellement) à accomplir la tâche proposée?
 +    - Sur un de ces environnements, proposez un tableau comparatif des performances obtenues pour différentes valeurs des paramètres principaux (learning rate, gamma)
 +  - Quelle solution proposez-vous pour adapter cet algorithme au cas des actions à valeurs continues?
 +  - Quelle solution proposez-vous lorsque les entrées sont des images pixelisées d'émulateurs de jeux vidéos?