Spaces:

acozma
/

CS581-Algos-Demo

Sleeping

lharri73 commited on Apr 23, 2023

Commit

3266489

1 Parent(s): 1af9e6d

fix reward func

Files changed (1) hide show

DPAgent.py CHANGED Viewed

@@ -36,7 +36,8 @@ class DPAgent(Shared):
                     for probability, next_state, reward, done in self.env.P[state][
                         action
                     ]:
-                        if state == self.env.observation_space.n-1: reward = 1
                         expected_value += probability * (
                             reward + self.gamma * self.V[next_state]
                         )
@@ -58,7 +59,8 @@ class DPAgent(Shared):
             for a in range(self.env.action_space.n):
                 expected_value = 0
                 for probability, next_state, reward, done in self.env.P[s][a]:
-                    if state == self.env.observation_space.n-1: reward = 1
                     expected_value += probability * (
                         reward + self.gamma * self.V[next_state]
                     )

                     for probability, next_state, reward, done in self.env.P[state][
                         action
                     ]:
+                        if self.env_name == "CliffWalking-v0" and state == self.env.observation_space.n-1:
+                            reward = 1
                         expected_value += probability * (
                             reward + self.gamma * self.V[next_state]
                         )
             for a in range(self.env.action_space.n):
                 expected_value = 0
                 for probability, next_state, reward, done in self.env.P[s][a]:
+                    if self.env_name == "CliffWalking-v0" and state == self.env.observation_space.n-1:
+                            reward = 1
                     expected_value += probability * (
                         reward + self.gamma * self.V[next_state]
                     )