kingabzpro
/

Moonman-Lunar-Landing-v2

Reinforcement Learning

stable-baselines3

deep-reinforcement-learning

Model card Files Files and versions Community

Moonman-Lunar-Landing-v2 / README.md

kingabzpro's picture

Hparams-optimized-5

03dfa90 over 2 years ago

|

1.61 kB

	---
	library_name: stable-baselines3
	tags:
	- LunarLander-v2
	- deep-reinforcement-learning
	- reinforcement-learning
	- stable-baselines3
	model-index:
	- name: PPO
	results:
	- metrics:
	- type: mean_reward
	value: 256.40 +/- 21.37
	name: mean_reward
	task:
	type: reinforcement-learning
	name: reinforcement-learning
	dataset:
	name: LunarLander-v2
	type: LunarLander-v2
	---

	# PPO Agent playing LunarLander-v2
	This is a trained model of a PPO agent playing LunarLander-v2 using the [stable-baselines3 library](https://github.com/DLR-RM/stable-baselines3).

	## Usage (with Stable-baselines3)
	```python
	import gym
	from stable_baselines3 import PPO
	from stable_baselines3.common.evaluation import evaluate_policy
	from stable_baselines3.common.env_util import make_vec_env

	# Create a vectorized environment of 16 parallel environments
	env = make_vec_env("LunarLander-v2", n_envs=16)

	# Optimizaed Hyperparameters
	model = PPO(
	"MlpPolicy",
	env=env,
	n_steps=655,
	batch_size=32,
	n_epochs=8,
	gamma=0.998,
	gae_lambda=0.98,
	ent_coef=0.01,
	verbose=1,
	)

	# Train it for 500,000 timesteps
	model.learn(total_timesteps=int(5e6))

	# Create a new environment for evaluation
	eval_env = gym.make("LunarLander-v2")

	# Evaluate the model with 10 evaluation episodes and deterministic=True
	mean_reward, std_reward = evaluate_policy(
	model, eval_env, n_eval_episodes=10, deterministic=True
	)

	# Print the results
	print(f"mean_reward={mean_reward:.2f} +/- {std_reward}")

	#>>> mean_reward=254.56 +/- 18.45056958672337


	```