Wyatt-Huang
/

DIPO

Wyatt-Huang commited on Mar 12, 2024

Commit

7823f20

verified ·

1 Parent(s): cbc47fc

Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -43,7 +43,7 @@ Hyperparameters for DIPO have been shown as follow for easily reproducing our re
 | No. of hidden nodes | 256 | 256  | 256  | 256  |
 | Activation | mish | relu | relu | tanh |
 | Batch size | 256 | 256 | 256 | 256 |
-| Discount for reward $\gamma$ | 0.99 | 0.99 | 0.99 | 0.99 |
 | Target smoothing coefficient $\tau$ | 0.005 | 0.005 | 0.005 | 0.005 |
 | Learning rate for actor | $3 × 10^{-4}$ | $3 × 10^{-4}$ | $3 × 10^{-4}$ | $7 × 10^{-4}$ |
 | Learning rate for actor | $3 × 10^{-4}$ | $3 × 10^{-4}$ | $3 × 10^{-4}$ | $7 × 10^{-4}$ |

 | No. of hidden nodes | 256 | 256  | 256  | 256  |
 | Activation | mish | relu | relu | tanh |
 | Batch size | 256 | 256 | 256 | 256 |
+| Discount for reward $$\gamma$$ | 0.99 | 0.99 | 0.99 | 0.99 |
 | Target smoothing coefficient $\tau$ | 0.005 | 0.005 | 0.005 | 0.005 |
 | Learning rate for actor | $3 × 10^{-4}$ | $3 × 10^{-4}$ | $3 × 10^{-4}$ | $7 × 10^{-4}$ |
 | Learning rate for actor | $3 × 10^{-4}$ | $3 × 10^{-4}$ | $3 × 10^{-4}$ | $7 × 10^{-4}$ |