Wyatt-Huang
/

DIPO

Wyatt-Huang commited on Mar 12, 2024

Commit

6c3ec60

verified ·

1 Parent(s): 7823f20

Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -45,7 +45,7 @@ Hyperparameters for DIPO have been shown as follow for easily reproducing our re
 | Batch size | 256 | 256 | 256 | 256 |
 | Discount for reward $$\gamma$$ | 0.99 | 0.99 | 0.99 | 0.99 |
 | Target smoothing coefficient $\tau$ | 0.005 | 0.005 | 0.005 | 0.005 |
-| Learning rate for actor | $3 × 10^{-4}$ | $3 × 10^{-4}$ | $3 × 10^{-4}$ | $7 × 10^{-4}$ |
 | Learning rate for actor | $3 × 10^{-4}$ | $3 × 10^{-4}$ | $3 × 10^{-4}$ | $7 × 10^{-4}$ |
 | Actor Critic grad norm | 2 | N/A | N/A | 0.5 |
 | Memeroy size | $1 × 10^6$ | $1 × 10^6$ | $1 × 10^6$ | $1 × 10^6$ |

 | Batch size | 256 | 256 | 256 | 256 |
 | Discount for reward $$\gamma$$ | 0.99 | 0.99 | 0.99 | 0.99 |
 | Target smoothing coefficient $\tau$ | 0.005 | 0.005 | 0.005 | 0.005 |
+| Learning rate for actor | $$3 × 10^{-4}$$ | $3 × 10^{-4}$ | $3 × 10^{-4}$ | $7 × 10^{-4}$ |
 | Learning rate for actor | $3 × 10^{-4}$ | $3 × 10^{-4}$ | $3 × 10^{-4}$ | $7 × 10^{-4}$ |
 | Actor Critic grad norm | 2 | N/A | N/A | 0.5 |
 | Memeroy size | $1 × 10^6$ | $1 × 10^6$ | $1 × 10^6$ | $1 × 10^6$ |