Thacio Garcia Scandaroli
commited on
Commit
•
54fbe35
1
Parent(s):
5fd39d2
Update README.md
Browse files
README.md
CHANGED
@@ -32,16 +32,17 @@ ULT5-pt é um modelo de arquitetura T5-v1.1 treinado com o framework UL2 - [Unif
|
|
32 |
- **License:** MIT
|
33 |
|
34 |
|
35 |
-
##
|
36 |
|
37 |
-
|
38 |
-
|
39 |
|
40 |
-
|
41 |
|
42 |
-
*
|
|
|
43 |
|
44 |
-
|
45 |
|
46 |
## Uses
|
47 |
|
|
|
32 |
- **License:** MIT
|
33 |
|
34 |
|
35 |
+
## Pretraining nad model characteristics
|
36 |
|
37 |
+
The model was trained with a portion of the C4 corpus in Portuguese using UL2 (https://huggingface.co/google/ul2), using R-Denoising, S-Denoising, and X-Denoising, and with dropout rate of 0.0.
|
38 |
+
Unlike the original work of UL2, a prefix token for S-Denoising was not used. For R-Denoising and X-Denoising, the tokens '<|NLU|>' and '<|NLG|>' and were used, respectively.
|
39 |
|
40 |
+
A context window of 1024 tokens was used. Also, a GPT2 tokenizer with a Portuguese vocabulary trained with Wikipedia was used to increase the amount of text that can be processed.*
|
41 |
|
42 |
+
*O modelo foi treinado com uma parte do corpus C4 em português utilizando o UL2 (https://huggingface.co/google/ul2), utilizando *R-Denoising*, *S-Denoising* e *X-Denoising*, e com dropout 0.0.*
|
43 |
+
*De forma diferente do paper original, não se utilizou token específico de prefixo para o *S-Denoising*. Para o *R-Denoising* e o *X-Denoising*, foram utilizados, respectivamente, os tokens <|NLU|> e <|NLG|>.*
|
44 |
|
45 |
+
*Utilizou-se uma janela de contexto para 1024 tokens e um tokenizador do GPT2 com vocabulário em português treinado com o wikipedia, aumentando a quantidade de texto que pode ser processada.*
|
46 |
|
47 |
## Uses
|
48 |
|