Spaces:

acozma
/

CS581-Algos-Demo

Sleeping

App Files Files Community

lharri73 commited on Apr 22, 2023

Commit

17d4626

1 Parent(s): e282b5d

retrain frozenlake

Browse files

Files changed (4) hide show

DPAgent.py +1 -3
MCAgent.py +2 -2
Shared.py +3 -3
policies/DPAgent_FrozenLake-v1_e2500_s200_g0.99_e0.4_first_visit.npy +0 -0

DPAgent.py CHANGED Viewed

@@ -16,8 +16,6 @@ class DPAgent(Shared):
         self.Pi = np.zeros(self.env.observation_space.n, self.env.action_space.n)
         if self.gamma >= 1.0:
             warnings.warn("DP will never converge with a gamma value =1.0. Try 0.99?", UserWarning)
-        print(self.env)
-        exit(1)
     def policy(self, state):
         return self.Pi[state]
@@ -68,7 +66,7 @@ class DPAgent(Shared):
 if __name__ == "__main__":
     # env = gym.make('FrozenLake-v1', render_mode='human')
-    dp = DPAgent(env_name="FrozenLake-v1", gamma=0.99)
     dp.train()
     dp.save_policy('dp_policy.npy')
     env = gym.make('FrozenLake-v1', render_mode='human', is_slippery=False, desc=[

         self.Pi = np.zeros(self.env.observation_space.n, self.env.action_space.n)
         if self.gamma >= 1.0:
             warnings.warn("DP will never converge with a gamma value =1.0. Try 0.99?", UserWarning)
     def policy(self, state):
         return self.Pi[state]
 if __name__ == "__main__":
     # env = gym.make('FrozenLake-v1', render_mode='human')
+    dp = DPAgent(env="FrozenLake-v1", gamma=0.99)
     dp.train()
     dp.save_policy('dp_policy.npy')
     env = gym.make('FrozenLake-v1', render_mode='human', is_slippery=False, desc=[

MCAgent.py CHANGED Viewed

@@ -9,13 +9,13 @@ class MCAgent(Shared):
     def __init__(
         self,
         /,
-        env_name="CliffWalking-v0",
         gamma=0.99,
         epsilon=0.1,
         run_name=None,
         **kwargs,
     ):
-        super().__init__(env_name, gamma, epsilon, run_name, **kwargs)
         self.reset()
     def reset(self):

     def __init__(
         self,
         /,
+        env="CliffWalking-v0",
         gamma=0.99,
         epsilon=0.1,
         run_name=None,
         **kwargs,
     ):
+        super().__init__(env, gamma, epsilon, run_name, **kwargs)
         self.reset()
     def reset(self):

Shared.py CHANGED Viewed

@@ -6,19 +6,19 @@ class Shared:
     def __init__(
         self,/,
-        env_name="CliffWalking-v0",
         gamma=0.99,
         epsilon=0.1,
         run_name=None,
         **kwargs,
     ):
         print("=" * 80)
-        print(f"# Init Agent - {env_name}")
         print(f"- epsilon: {epsilon}")
         print(f"- gamma: {gamma}")
         print(f"- run_name: {run_name}")
         self.run_name = run_name
-        self.env_name = env_name
         self.epsilon, self.gamma = epsilon, gamma
         self.env_kwargs = {k:v for k,v in kwargs.items() if k in ['render_mode']}

     def __init__(
         self,/,
+        env="CliffWalking-v0",
         gamma=0.99,
         epsilon=0.1,
         run_name=None,
         **kwargs,
     ):
         print("=" * 80)
+        print(f"# Init Agent - {env}")
         print(f"- epsilon: {epsilon}")
         print(f"- gamma: {gamma}")
         print(f"- run_name: {run_name}")
         self.run_name = run_name
+        self.env_name = env
         self.epsilon, self.gamma = epsilon, gamma
         self.env_kwargs = {k:v for k,v in kwargs.items() if k in ['render_mode']}

policies/DPAgent_FrozenLake-v1_e2500_s200_g0.99_e0.4_first_visit.npy CHANGED Viewed

Binary files a/policies/DPAgent_FrozenLake-v1_e2500_s200_g0.99_e0.4_first_visit.npy and b/policies/DPAgent_FrozenLake-v1_e2500_s200_g0.99_e0.4_first_visit.npy differ