Différences
Ci-dessous, les différences entre deux révisions de la page.
| Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
| public:rl_tp1 [2025/11/24 16:06] – [Politique guidée par la valeur] edauce | public:rl_tp1 [2025/11/25 12:10] (Version actuelle) – [3. Mise à jour du actor (version simple tabulaire)] edauce | ||
|---|---|---|---|
| Ligne 261: | Ligne 261: | ||
| </ | </ | ||
| - | En fin de simulation, la valeur cumulée est calculée séparément pour chaque état rencontré: | + | En fin d' |
| * pour chaque état $s_t$ de la trace : | * pour chaque état $s_t$ de la trace : | ||
| * calculer la somme des récompenses **présente et futures** | * calculer la somme des récompenses **présente et futures** | ||
| Ligne 267: | Ligne 267: | ||
| * incrémenter le nombre de visites | * incrémenter le nombre de visites | ||
| + | <note tip> ** A faire:** | ||
| + | |||
| + | Implémentez cette nouvelle méthode de calcul de la fonction de valeur et comparez les valeurs obtenues à celles de la politique précédente. | ||
| + | </ | ||
| + | |||
| + | ===== Approche actor-critic (facultatif) ===== | ||
| + | |||
| + | L’actor-critic se résume à : | ||
| + | * un critic fournissant le signal d’erreur '' | ||
| + | * un actor ajustant une politique tabulaire directement en fonction de '' | ||
| + | |||
| + | l’approche actor-critic repose sur deux tables distinctes : | ||
| + | |||
| + | * **Critic :** une table de valeurs d’état '' | ||
| + | * **Actor :** une table de politique '' | ||
| + | |||
| + | ==== 1. Erreur TD ==== | ||
| + | |||
| + | Pour chaque transition '' | ||
| + | |||
| + | δ = r + γ V(s') − V(s) | ||
| + | |||
| + | ==== 2. Mise à jour du critic ==== | ||
| + | |||
| + | La table de valeurs est mise à jour directement : | ||
| + | |||
| + | V(s) ← V(s) + α_c · δ | ||
| + | |||
| + | ==== 3. Mise à jour de l' | ||
| + | |||
| + | On ajuste la probabilité de l’action choisie et celles des autres actions dans l’état $s$ : | ||
| + | |||
| + | * Pour l’action exécutée '' | ||
| + | | ||
| + | $$π(a|s) ← π(a|s) + α_a · δ · (1 − π(a|s))$$ | ||
| + | |||
| + | * Pour toutes les autres actions '' | ||
| + | | ||
| + | $$π(b|s) ← π(b|s) − α_a · δ · π(b|s)$$ | ||
| + | |||
| + | Ces deux mises à jour garantissent que la ligne de la politique dans l’état '' | ||
| + | |||
| + | <note tip> ** A faire ** | ||
| + | - Implémentez la méthode actor-critic dans la classe acteur, | ||
| + | - Affichez l' | ||
| + | </ | ||
| - | Calculer à nouveau la fonction de valeur et comparer la politique obtenue à la politique précédente. | ||