HeyLucasLeao
commited on
Commit
·
70cf665
1
Parent(s):
fc08d59
Create README.md
Browse files
README.md
ADDED
@@ -0,0 +1,61 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
## GPT-Neo Small Portuguese
|
2 |
+
|
3 |
+
##### Model Description
|
4 |
+
This is a finetuned version from GPT-Neo 125M by EletheurAI to Portuguese language.
|
5 |
+
|
6 |
+
##### Training data
|
7 |
+
It was training from 227.382 selected texts from a PTWiki Dump. You can found all the data from here: https://archive.org/details/ptwiki-dump-20210520
|
8 |
+
|
9 |
+
##### Training Procedure
|
10 |
+
Every text was passed through a GPT2-Tokenizer with bos and eos tokens to separate it, with max sequence length that the GPT-Neo could support. It was finetuned using the default metrics of the Trainer Class, available on the Hugging Face library.
|
11 |
+
|
12 |
+
##### Learning Rate: **2e-4**
|
13 |
+
##### Epochs: **1**
|
14 |
+
|
15 |
+
##### Goals
|
16 |
+
My true intention was totally educational, thus making available a Portuguese version of this model.
|
17 |
+
|
18 |
+
How to use
|
19 |
+
``` python
|
20 |
+
from transformers import AutoTokenizer, AutoModelForCausalLM
|
21 |
+
|
22 |
+
tokenizer = AutoTokenizer.from_pretrained("HeyLucasLeao/gpt-neo-small-portuguese")
|
23 |
+
|
24 |
+
model = AutoModelForCausalLM.from_pretrained("HeyLucasLeao/gpt-neo-small-portuguese")
|
25 |
+
|
26 |
+
text = 'eu amo o brasil.'
|
27 |
+
|
28 |
+
generated = tokenizer(f'<|startoftext|> {text}',
|
29 |
+
return_tensors='pt').input_ids.cuda()
|
30 |
+
|
31 |
+
#Generating texts
|
32 |
+
sample_outputs = model.generate(generated,
|
33 |
+
# Use sampling instead of greedy decoding
|
34 |
+
do_sample=True,
|
35 |
+
# Keep only top 3 token with the highest probability
|
36 |
+
top_k=3,
|
37 |
+
# Maximum sequence length
|
38 |
+
max_length=200,
|
39 |
+
# Keep only the most probable tokens with cumulative probability of 95%
|
40 |
+
top_p=0.95,
|
41 |
+
# Changes randomness of generated sequences
|
42 |
+
temperature=1.9,
|
43 |
+
# Number of sequences to generate
|
44 |
+
num_return_sequences=3)
|
45 |
+
|
46 |
+
# Decoding and printing sequences
|
47 |
+
for i, sample_output in enumerate(sample_outputs):
|
48 |
+
print(">> Generated text {}\n\n{}".format(i+1, tokenizer.decode(sample_output.tolist())))
|
49 |
+
|
50 |
+
# >> Generated text
|
51 |
+
#Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
|
52 |
+
#>> Generated text 1
|
53 |
+
|
54 |
+
#<|startoftext|> eu amo o brasil. O termo foi usado por alguns autores como uma forma de designar a formação do poder político do Brasil. A partir da década de 1960, o termo passou a ser usado para designar a formação política do Brasil. A partir de meados da década de 1970 e até o inicio dos anos 2000, o termo foi aplicado à formação político-administrativo do país, sendo utilizado por alguns autores como uma expressão de "política de direita". História Antecedentes O termo "político-administrário" foi usado pela primeira vez em 1891 por um gru
|
55 |
+
#>> Generated text 2
|
56 |
+
|
57 |
+
#<|startoftext|> eu amo o brasil. É uma das muitas pessoas do mundo, ao contrário da maioria das pessoas, que são chamados de "pessoas do Brasil", que são chamados de "brincos do país" e que têm uma carreira de mais de um século. O termo "brincal de ouro" é usado em referências às pessoas que vivem no Brasil, e que são chamados "brincos do país", que são "cidade" e que vivem na cidade de Nova York e que vive em um país onde a maior parte das pessoas são chamados de "cidades". Hist
|
58 |
+
#>> Generated text 3
|
59 |
+
|
60 |
+
#<|startoftext|> eu amo o brasil. É uma expressão que se refere ao uso de um instrumento musical em particular para se referir à qualidade musical, o que é uma expressão da qualidade da qualidade musical de uma pessoa. A expressão "amor" (em inglês, amo), é a expressão que pode ser usada com o intuito empregado em qualquer situação em que a vontade de uma pessoa de se sentir amado ou amoroso é mais do que um desejo de uma vontade. Em geral, a expressão "amoro" (do inglês, amo) pode também se referir tanto a uma pessoa como um instrumento de cordas ou de uma
|
61 |
+
```
|