Différences
Ci-dessous, les différences entre deux révisions de la page.
| Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
| public:rl_tp1 [2025/11/25 12:08] – edauce | public:rl_tp1 [2025/11/25 12:10] (Version actuelle) – [3. Mise à jour du actor (version simple tabulaire)] edauce | ||
|---|---|---|---|
| Ligne 272: | Ligne 272: | ||
| </ | </ | ||
| - | ===== Approche actor-critic | + | ===== Approche actor-critic (facultatif) ===== |
| - | L’actor-critic | + | L’actor-critic se résume à : |
| * un critic fournissant le signal d’erreur '' | * un critic fournissant le signal d’erreur '' | ||
| * un actor ajustant une politique tabulaire directement en fonction de '' | * un actor ajustant une politique tabulaire directement en fonction de '' | ||
| - | Dans la version tabulaire, | + | l’approche actor-critic repose sur deux tables distinctes : |
| * **Critic :** une table de valeurs d’état '' | * **Critic :** une table de valeurs d’état '' | ||
| Ligne 295: | Ligne 295: | ||
| V(s) ← V(s) + α_c · δ | V(s) ← V(s) + α_c · δ | ||
| - | ==== 3. Mise à jour du actor (version simple tabulaire) | + | ==== 3. Mise à jour de l' |
| - | On ajuste la probabilité de l’action choisie et celles des autres actions dans l’état | + | On ajuste la probabilité de l’action choisie et celles des autres actions dans l’état |
| * Pour l’action exécutée '' | * Pour l’action exécutée '' | ||
| | | ||
| - | π(a|s) ← π(a|s) + α_a · δ · (1 − π(a|s)) | + | |
| * Pour toutes les autres actions '' | * Pour toutes les autres actions '' | ||
| | | ||
| - | π(b|s) ← π(b|s) − α_a · δ · π(b|s) | + | |
| Ces deux mises à jour garantissent que la ligne de la politique dans l’état '' | Ces deux mises à jour garantissent que la ligne de la politique dans l’état '' | ||