Différences

Ci-dessous, les différences entre deux révisions de la page.

--- public:rl_tp1 [2025/11/25 12:08] – [Approche actor-critic tabulaire (facultatif)] edauce
+++ public:rl_tp1 [2025/11/25 12:10] (Version actuelle) – [3. Mise à jour du actor (version simple tabulaire)] edauce
@@ Ligne 295: / Ligne 295: @@
   V(s) ← V(s) + α_c · δ
-==== 3. Mise à jour du actor (version simple tabulaire) ====
+==== 3. Mise à jour de l'acteur ====
-On ajuste la probabilité de l’action choisie et celles des autres actions dans l’état ''s'' :
+On ajuste la probabilité de l’action choisie et celles des autres actions dans l’état $s$ :
   * Pour l’action exécutée ''a'' :
-    π(a|s) ← π(a|s) + α_a · δ · (1 − π(a|s))
+    $$π(a|s) ← π(a|s) + α_a · δ · (1 − π(a|s))$$
   * Pour toutes les autres actions ''b ≠ a'' :
-    π(b|s) ← π(b|s) − α_a · δ · π(b|s)
+    $$π(b|s) ← π(b|s) − α_a · δ · π(b|s)$$
 Ces deux mises à jour garantissent que la ligne de la politique dans l’état ''s'' reste une distribution valide (les probabilités restent normalisées si elles étaient normalisées au départ).