CONFIG = {
    'vocab_size': 10000,
    'embed_dim': 512,
    'latent_dim': 256,
    'num_frames': 32,
    'frame_size': 256,
    'learning_rate': 0.0001,
    'batch_size': 16
}