Spaces:

sabretoothedhugs
/

Distributional-RL-Benchmark-v2

Running

App Files Files Community

sabretoothedhugs commited on Jul 6, 2024

Commit

80a5e58

1 Parent(s): 1f3aec7

fix seed

Browse files

Files changed (4) hide show

app.py +22 -11
video-app/rl-video-episode-0.mp4 +0 -0
video-app/rl-video-episode-1.meta.json +1 -1
video-app/rl-video-episode-1.mp4 +0 -0

app.py CHANGED Viewed

@@ -157,6 +157,7 @@ def test_c51(config : dict) -> None:
     #     frame_stack=config["frames_stack"],
     # )
     env_wrap = gym.make(config["task"],render_mode = 'rgb_array')
     env_deep = wrap_deepmind(env_wrap)
     rec_env = DummyVectorEnv(
         [
@@ -174,8 +175,9 @@ def test_c51(config : dict) -> None:
     # seed
     np.random.seed(config["seed"])
     torch.manual_seed(config["seed"])
-    rec_env.seed(config["seed"])
     # test_envs.seed(config["seed"])
     net = C51(*state_shape, action_shape, config["num_atoms"], config["device"])
@@ -218,8 +220,10 @@ def test_FQF(config : dict) -> None:
     #     frame_stack=config["frames_stack"],
     # )
-    # env_wrap = gym.make(config["task"],render_mode = 'rgb_array')
-    env_deep = wrap_deepmind(gym.make(config["task"],render_mode = 'rgb_array'))
     rec_env = DummyVectorEnv(
         [
             lambda: gym.wrappers.RecordVideo(
@@ -235,9 +239,11 @@ def test_FQF(config : dict) -> None:
     print("Observations shape:", state_shape)
     print("Actions shape:", action_shape)
     # seed
-    np.random.seed(config["seed"])
-    torch.manual_seed(config["seed"])
-    rec_env.seed(config["seed"])
     feature_net = DQN(*state_shape, action_shape, config["device"], features_only=True)
     # Create FullQuantileFunction net
@@ -297,8 +303,9 @@ def test_fqf_rainbow(config: dict) -> None:
     #     scale=config['scale_obs'],
     #     frame_stack=config['frames_stack'],
     # )
-    env_deep = wrap_deepmind(gym.make(config["task"],render_mode = 'rgb_array'))
     rec_env = DummyVectorEnv(
         [
             lambda: gym.wrappers.RecordVideo(
@@ -319,10 +326,11 @@ def test_fqf_rainbow(config: dict) -> None:
     # print("Observations shape:", config['state_shape'])
     # print("Actions shape:", config['action_shape'])
     # seed
-    np.random.seed(config['seed'])
-    torch.manual_seed(config['seed'])
     # test_envs.seed(config['seed'])
-    rec_env.seed(config['seed'])
     # define model
     feature_net = DQN(*config['state_shape'], config['action_shape'], config['device'], features_only=True)
     preprocess_net_output_dim = feature_net.output_dim  # Ensure this is correctly set
@@ -377,6 +385,7 @@ def display_choice(algo, game,slider):
     # Dictionary to store mean scores for each algorithm and game
     match algo:
         case "C51":
             match game:
                 case "Freeway":
                     config_c51["resume_path"] = "models/c51_freeway.pth"
@@ -387,6 +396,7 @@ def display_choice(algo, game,slider):
                     return 19
         case "FQF":
           match game:
                 case "Freeway":
                     config_fqf["resume_path"] = "models/fqf_freeway.pth"
@@ -397,6 +407,7 @@ def display_choice(algo, game,slider):
                     return 20
         case "FQF-Rainbow":
             match game:
                 case "Freeway":
                     config_fqf_r["resume_path"] = "models/fqf-rainbow_freeway.pth"

     #     frame_stack=config["frames_stack"],
     # )
     env_wrap = gym.make(config["task"],render_mode = 'rgb_array')
+    env_wrap.action_space.seed(config["seed"])
     env_deep = wrap_deepmind(env_wrap)
     rec_env = DummyVectorEnv(
         [
     # seed
     np.random.seed(config["seed"])
     torch.manual_seed(config["seed"])
+    # rec_env.seed(config["seed"])
     # test_envs.seed(config["seed"])
+    print("seed is ",config["seed"])
     net = C51(*state_shape, action_shape, config["num_atoms"], config["device"])
     #     frame_stack=config["frames_stack"],
     # )
+    env_wrap = gym.make(config["task"],render_mode = 'rgb_array')
+    env_wrap.action_space.seed(config["seed"])
+    env_deep = wrap_deepmind(env_wrap)
     rec_env = DummyVectorEnv(
         [
             lambda: gym.wrappers.RecordVideo(
     print("Observations shape:", state_shape)
     print("Actions shape:", action_shape)
     # seed
+    print(config["seed"])
+    # np.random.seed(config["seed"])
+    # torch.manual_seed(config["seed"])
+    # rec_env.seed(config["seed"])
     feature_net = DQN(*state_shape, action_shape, config["device"], features_only=True)
     # Create FullQuantileFunction net
     #     scale=config['scale_obs'],
     #     frame_stack=config['frames_stack'],
     # )
+    env_wrap = gym.make(config["task"],render_mode = 'rgb_array')
+    env_wrap.action_space.seed(config["seed"])
+    env_deep = wrap_deepmind(env_wrap)
     rec_env = DummyVectorEnv(
         [
             lambda: gym.wrappers.RecordVideo(
     # print("Observations shape:", config['state_shape'])
     # print("Actions shape:", config['action_shape'])
     # seed
+    print(config["seed"])
+    # np.random.seed(config['seed'])
+    # torch.manual_seed(config['seed'])
     # test_envs.seed(config['seed'])
+    # rec_env.seed(config['seed'])
     # define model
     feature_net = DQN(*config['state_shape'], config['action_shape'], config['device'], features_only=True)
     preprocess_net_output_dim = feature_net.output_dim  # Ensure this is correctly set
     # Dictionary to store mean scores for each algorithm and game
     match algo:
         case "C51":
+            config_c51["seed"] = slider
             match game:
                 case "Freeway":
                     config_c51["resume_path"] = "models/c51_freeway.pth"
                     return 19
         case "FQF":
+          config_fqf["seed"] = slider
           match game:
                 case "Freeway":
                     config_fqf["resume_path"] = "models/fqf_freeway.pth"
                     return 20
         case "FQF-Rainbow":
+            config_fqf_r["seed"] = slider
             match game:
                 case "Freeway":
                     config_fqf_r["resume_path"] = "models/fqf-rainbow_freeway.pth"

video-app/rl-video-episode-0.mp4 CHANGED Viewed

Binary files a/video-app/rl-video-episode-0.mp4 and b/video-app/rl-video-episode-0.mp4 differ

video-app/rl-video-episode-1.meta.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"step_id": ~~2045~~, "episode_id": 1, "content_type": "video/mp4"}


1	+ {"step_id": 2044, "episode_id": 1, "content_type": "video/mp4"}

video-app/rl-video-episode-1.mp4 CHANGED Viewed

Binary files a/video-app/rl-video-episode-1.mp4 and b/video-app/rl-video-episode-1.mp4 differ