Training on 300 000 timesteps

Browse files

Files changed (7) hide show

README.md +6 -42
config.json +0 -0
dqn-SpaceInvadersNoFrameskip-v4.zip +2 -2
dqn-SpaceInvadersNoFrameskip-v4/data +0 -0
dqn-SpaceInvadersNoFrameskip-v4/policy.optimizer.pth +1 -1
dqn-SpaceInvadersNoFrameskip-v4/policy.pth +1 -1
results.json +1 -1

README.md CHANGED Viewed

@@ -10,7 +10,7 @@ model-index:
   results:
   - metrics:
     - type: mean_reward
-      value: 282.50 +/- 7.50
       name: mean_reward
     task:
       type: reinforcement-learning
@@ -25,48 +25,12 @@ This is a trained model of a **DQN** agent playing **SpaceInvadersNoFrameskip-v4
 using the [stable-baselines3 library](https://github.com/DLR-RM/stable-baselines3).
 ## Usage (with Stable-baselines3)
-```python
-from stable_baselines3.common.env_util import make_atari_env
-from stable_baselines3.common.vec_env import VecFrameStack
-from stable_baselines3 import DQN
-from stable_baselines3.common.evaluation import evaluate_policy
-from huggingface_sb3 import load_from_hub, package_to_hub
-from stable_baselines3.common.utils import set_random_seed
-env_id = "SpaceInvadersNoFrameskip-v4"
-env = make_atari_env(env_id,
-                     n_envs=12,
-                     # Improving reproducibility
-                     seed=1)
-env = VecFrameStack(env, n_stack=4)  # Stack last four images
-# Improving reproducibility
-set_random_seed(42)
-# Using these parameters as default: https://huggingface.co/micheljperez/dqn-SpaceInvadersNoFrameskip-v4
-model = DQN(policy = "CnnPolicy",
-            env = env,
-            batch_size = 32,
-            buffer_size = 100_000,
-            exploration_final_eps = 0.01,
-            exploration_fraction = 0.025,
-            gradient_steps = 1,
-            learning_rate = 1e-4,
-            learning_starts = 100_000,
-            optimize_memory_usage = True,
-            replay_buffer_kwargs = {"handle_timeout_termination": False},
-            target_update_interval = 1000,
-            train_freq = 4,
-            # normalize = False,
-            tensorboard_log = "./tensorboard",
-            verbose=1
-           )
-f = load_from_hub('masterdezign/dqn-SpaceInvadersNoFrameskip-v4', 'dqn-SpaceInvadersNoFrameskip-v4.zip')
-model = model.load(f)
-mean_reward, std_reward = evaluate_policy(model, env)
-print(f"Mean reward = {mean_reward:.2f} +/- {std_reward:.2f}")
 ```

   results:
   - metrics:
     - type: mean_reward
+      value: 271.50 +/- 80.19
       name: mean_reward
     task:
       type: reinforcement-learning
 using the [stable-baselines3 library](https://github.com/DLR-RM/stable-baselines3).
 ## Usage (with Stable-baselines3)
+TODO: Add your code
+```python
+from stable_baselines3 import ...
+from huggingface_sb3 import load_from_hub
+...
 ```

config.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

dqn-SpaceInvadersNoFrameskip-v4.zip CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe5558f355105e4dd7a6130c1b57ae6bf66c845705541f78e2d0c6b4a256020c
-size 28089696

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d6d3956633c018a24698b9d8c6e8bcb555e97a1beb3137959274b3b44a23605
+size 28089676

dqn-SpaceInvadersNoFrameskip-v4/data CHANGED Viewed

The diff for this file is too large to render. See raw diff

dqn-SpaceInvadersNoFrameskip-v4/policy.optimizer.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7873855e1f6070f6b56857acf44b8df6c97efeccb03dc2c38ca164430aa000bf
 size 13505611

 version https://git-lfs.github.com/spec/v1
+oid sha256:511a074585123d95ebe155c2a0b1194250d977ca7d718e85f7041c42092644d1
 size 13505611

dqn-SpaceInvadersNoFrameskip-v4/policy.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba0afb8c73c3ab7e5b9913d17ce9f97288762844b0b9b55bb57e2f7f5aaaaab2
 size 13504937

 version https://git-lfs.github.com/spec/v1
+oid sha256:71b21eb240e1accfdeef2707a95e210c322bc20636161c1f02f983684168111a
 size 13504937

results.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"mean_reward": ~~282~~.5, "std_reward": 7.5, "is_deterministic": false, "n_eval_episodes": 10, "eval_datetime": "2022-07-20T14:03:14.~~340783~~"}


1	+ {"mean_reward": 271.5, "std_reward": 80.18883962248113, "is_deterministic": false, "n_eval_episodes": 10, "eval_datetime": "2022-07-20T14:35:46.400659"}