Différences
Ci-dessous, les différences entre deux révisions de la page.
| Les deux révisions précédentes Révision précédente | |||
| public:rl_tp1 [2025/11/25 12:08] – [Approche actor-critic tabulaire (facultatif)] edauce | public:rl_tp1 [2025/11/25 12:10] (Version actuelle) – [3. Mise à jour du actor (version simple tabulaire)] edauce | ||
|---|---|---|---|
| Ligne 295: | Ligne 295: | ||
| V(s) ← V(s) + α_c · δ | V(s) ← V(s) + α_c · δ | ||
| - | ==== 3. Mise à jour du actor (version simple tabulaire) | + | ==== 3. Mise à jour de l' |
| - | On ajuste la probabilité de l’action choisie et celles des autres actions dans l’état | + | On ajuste la probabilité de l’action choisie et celles des autres actions dans l’état |
| * Pour l’action exécutée '' | * Pour l’action exécutée '' | ||
| | | ||
| - | π(a|s) ← π(a|s) + α_a · δ · (1 − π(a|s)) | + | |
| * Pour toutes les autres actions '' | * Pour toutes les autres actions '' | ||
| | | ||
| - | π(b|s) ← π(b|s) − α_a · δ · π(b|s) | + | |
| Ces deux mises à jour garantissent que la ligne de la politique dans l’état '' | Ces deux mises à jour garantissent que la ligne de la politique dans l’état '' | ||