ierhon
/

neural-chatbot

Text Generation

Model card Files Files and versions Community

ierhon commited on Jul 29, 2023

Commit

41c4775

·

1 Parent(s): 4ab880f

Fix vocab_size to +1

Files changed (1) hide show

train.py +1 -1

train.py CHANGED Viewed

@@ -15,7 +15,7 @@ dset_size = len(dset)
 tokenizer = Tokenizer() # a tokenizer is a thing to split text into words, it might have some other stuff like making all the letters lowercase, etc.
 tokenizer.fit_on_texts(list(dset.keys()))
-vocab_size = len(tokenizer.word_index)
 model = Sequential()
 model.add(Embedding(input_dim=vocab_size, output_dim=emb_size, input_length=inp_len))

 tokenizer = Tokenizer() # a tokenizer is a thing to split text into words, it might have some other stuff like making all the letters lowercase, etc.
 tokenizer.fit_on_texts(list(dset.keys()))
+vocab_size = len(tokenizer.word_index) + 1
 model = Sequential()
 model.add(Embedding(input_dim=vocab_size, output_dim=emb_size, input_length=inp_len))