public:rl_tp1

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
public:rl_tp1 [2025/11/25 12:08] edaucepublic:rl_tp1 [2025/11/25 12:10] (Version actuelle) – [3. Mise à jour du actor (version simple tabulaire)] edauce
Ligne 272: Ligne 272:
 </note> </note>
  
-===== Approche actor-critic tabulaire (facultatif) =====+===== Approche actor-critic (facultatif) =====
  
-L’actor-critic tabulaire se résume à :+L’actor-critic se résume à :
   * un critic fournissant le signal d’erreur ''δ'',   * un critic fournissant le signal d’erreur ''δ'',
   * un actor ajustant une politique tabulaire directement en fonction de ''δ'',   * un actor ajustant une politique tabulaire directement en fonction de ''δ'',
  
-Dans la version tabulaire, l’approche actor-critic repose sur deux tables distinctes :+l’approche actor-critic repose sur deux tables distinctes :
  
   * **Critic :** une table de valeurs d’état ''V(s)''.   * **Critic :** une table de valeurs d’état ''V(s)''.
Ligne 295: Ligne 295:
   V(s) ← V(s) + α_c · δ   V(s) ← V(s) + α_c · δ
  
-==== 3. Mise à jour du actor (version simple tabulaire) ====+==== 3. Mise à jour de l'acteur ====
  
-On ajuste la probabilité de l’action choisie et celles des autres actions dans l’état ''s'' :+On ajuste la probabilité de l’action choisie et celles des autres actions dans l’état $s:
  
   * Pour l’action exécutée ''a'' :   * Pour l’action exécutée ''a'' :
      
-    π(a|s) ← π(a|s) + α_a · δ · (1 − π(a|s))+    $$π(a|s) ← π(a|s) + α_a · δ · (1 − π(a|s))$$
  
   * Pour toutes les autres actions ''b ≠ a'' :   * Pour toutes les autres actions ''b ≠ a'' :
      
-    π(b|s) ← π(b|s) − α_a · δ · π(b|s)+    $$π(b|s) ← π(b|s) − α_a · δ · π(b|s)$$
  
 Ces deux mises à jour garantissent que la ligne de la politique dans l’état ''s'' reste une distribution valide (les probabilités restent normalisées si elles étaient normalisées au départ). Ces deux mises à jour garantissent que la ligne de la politique dans l’état ''s'' reste une distribution valide (les probabilités restent normalisées si elles étaient normalisées au départ).
  • public/rl_tp1.1764068902.txt.gz
  • Dernière modification : 2025/11/25 12:08
  • de edauce