Spaces:

rootstrap-org
/

wordle-solver

Sleeping

File size: 2,729 Bytes

f05ece6
676caef
44db2f9
676caef
44db2f9
1bd428f
350e00d
676caef
44db2f9
 
676caef
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
44db2f9
350e00d
 
 
 
 
 
 
 
 
 
 
 
1bd428f
 
350e00d
 
 
676caef
350e00d
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1bd428f
62c6c3b
 
44db2f9
 
 
350e00d
1bd428f
 
 
 
 
676caef
1bd428f
676caef

import sys
import os
import gym
import torch
import matplotlib.pyplot as plt
from a3c.discrete_A3C import train
from a3c.utils import v_wrap
from a3c.net import Net
from wordle_env.wordle import WordleEnvBase

def evaluate_checkpoints(dir, env):
    n_s = env.observation_space.shape[0]
    n_a = env.action_space.n
    words_list = env.words
    word_width = len(env.words[0])
    net = Net(n_s, n_a, words_list, word_width)
    results = {}
    print(dir)
    for checkpoint in os.listdir(dir):
            checkpoint_path = os.path.join(dir, checkpoint)
            if os.path.isfile(checkpoint_path):
                net.load_state_dict(torch.load(checkpoint_path))
                wins, guesses = evaluate(net, env)
                results[checkpoint] = wins, guesses
    return dict(sorted(results.items(), key=lambda x: (x[1][0], -x[1][1]), reverse=True))


def evaluate(net, env):
    print("Evaluation mode")
    n_wins = 0
    n_guesses = 0
    n_win_guesses = 0
    env = env.unwrapped
    N = env.allowable_words
    for goal_word in env.words[:N]:
        win, outcomes = play(net, env)
        if win:
            n_wins += 1
            n_win_guesses += len(outcomes)
        # else:
        #     print("Lost!", goal_word, outcomes)
        n_guesses += len(outcomes)
    print(f"Evaluation complete, won {n_wins/N*100}% and took {n_win_guesses/n_wins} guesses per win, "
          f"{n_guesses / N} including losses.")
    return n_wins/N*100, n_win_guesses/n_wins

def play(net, env):
    state = env.reset()
    outcomes = []
    win = False
    for i in range(env.max_turns):
        action = net.choose_action(v_wrap(state[None, :]))
        state, reward, done, _ = env.step(action)
        outcomes.append((env.words[action], reward))
        if done:
            if reward >= 0:
                win = True
            break
    return win, outcomes

def print_results(global_ep, win_ep, res):
    print("Jugadas:", global_ep.value)
    print("Ganadas:", win_ep.value)
    plt.plot(res)
    plt.ylabel('Moving average ep reward')
    plt.xlabel('Step')
    plt.show()


if __name__ == "__main__":
    max_ep = int(sys.argv[1]) if len(sys.argv) > 1 else 100000
    env_id = sys.argv[2] if len(sys.argv) > 2 else 'WordleEnv100FullAction-v0'
    evaluation = True if len(sys.argv) > 3 and sys.argv[3] == 'evaluation' else False
    env = gym.make(env_id)
    model_checkpoint_dir = os.path.join('checkpoints', env.unwrapped.spec.id)
    if not evaluation:
        global_ep, win_ep, gnet, res = train(env, max_ep, model_checkpoint_dir)
        print_results(global_ep, win_ep, res)
        evaluate(gnet, env)
    else:
        results = evaluate_checkpoints(model_checkpoint_dir, env)
        print(results)