Thacio Garcia Scandaroli
commited on
Commit
•
5fd39d2
1
Parent(s):
3b0896d
Update README.md
Browse files
README.md
CHANGED
@@ -20,6 +20,8 @@ library_name: transformers
|
|
20 |
|
21 |
ULT5-pt é um modelo de arquitetura T5-v1.1 treinado com o framework UL2 - [Unifying Language Learning Paradigms](https://arxiv.org/abs/2205.05131v1), que utiliza Mixture-of-Denoisers (MoD), o qual combina o objetivo de Causal Language Modeling (CLM) com Span Corruption.
|
22 |
|
|
|
|
|
23 |
| Model | Parameters |
|
24 |
| :-: | :-: |
|
25 |
| [thacio/ult5-pt-small](https://huggingface.co/thacio/ult5-pt-small) | 82.4M |
|
@@ -33,10 +35,13 @@ ULT5-pt é um modelo de arquitetura T5-v1.1 treinado com o framework UL2 - [Unif
|
|
33 |
## Pré-treino e especificidades do modelo
|
34 |
|
35 |
O modelo foi treinado com uma parte do corpus C4 em português utilizando o UL2 (https://huggingface.co/google/ul2), utilizando *R-Denoising*, *S-Denoising* e *X-Denoising*, e com dropout 0.0.
|
36 |
-
De forma diferente, não se utilizou token de prefixo para o *S-Denoising*. Para o *R-Denoising* e o *X-Denoising*, foram utilizados, respectivamente, os tokens <|NLU|> e <|NLG|>.
|
37 |
|
38 |
Utilizou-se uma janela de contexto para 1024 tokens e um tokenizador do GPT2 com vocabulário em português treinado com o wikipedia, aumentando a quantidade de texto que pode ser processada.
|
39 |
|
|
|
|
|
|
|
40 |
|
41 |
## Uses
|
42 |
|
@@ -48,10 +53,18 @@ Os modos de *span corruption* podem ser acionados adicionado ao início do text
|
|
48 |
Os autores do UL2 apontam uma possivel diferença no resultado do fine-tune dependendo do modo ativado.
|
49 |
Porém, para o ult5-pt, não se notou diferença nos testes de benchmark.
|
50 |
|
|
|
|
|
|
|
|
|
|
|
|
|
51 |
### Direct Use
|
52 |
|
53 |
Exemplo de geração de texto com top_k de 30
|
54 |
|
|
|
|
|
55 |
```python
|
56 |
from transformers import GPT2TokenizerFast, AutoModelForSeq2SeqLM
|
57 |
|
@@ -100,6 +113,8 @@ print(last_hidden_states)
|
|
100 |
|
101 |
Os mesmos riscos, vieses e limitações dos outros modelos se aplicam a este, como o apontado em [GPT2](https://huggingface.co/gpt2).
|
102 |
|
|
|
|
|
103 |
## Citation
|
104 |
|
105 |
```bibtex
|
|
|
20 |
|
21 |
ULT5-pt é um modelo de arquitetura T5-v1.1 treinado com o framework UL2 - [Unifying Language Learning Paradigms](https://arxiv.org/abs/2205.05131v1), que utiliza Mixture-of-Denoisers (MoD), o qual combina o objetivo de Causal Language Modeling (CLM) com Span Corruption.
|
22 |
|
23 |
+
*ULT5-pt is a T5-v1.1 architecture model trained using the UL2 - Unifying Language Learning Paradigms framework, which uses Mixture-of-Denoisers (MoD), combining Causal Language Modeling (CLM) objective with Span Corruption.*
|
24 |
+
|
25 |
| Model | Parameters |
|
26 |
| :-: | :-: |
|
27 |
| [thacio/ult5-pt-small](https://huggingface.co/thacio/ult5-pt-small) | 82.4M |
|
|
|
35 |
## Pré-treino e especificidades do modelo
|
36 |
|
37 |
O modelo foi treinado com uma parte do corpus C4 em português utilizando o UL2 (https://huggingface.co/google/ul2), utilizando *R-Denoising*, *S-Denoising* e *X-Denoising*, e com dropout 0.0.
|
38 |
+
De forma diferente do paper original, não se utilizou token específico de prefixo para o *S-Denoising*. Para o *R-Denoising* e o *X-Denoising*, foram utilizados, respectivamente, os tokens <|NLU|> e <|NLG|>.
|
39 |
|
40 |
Utilizou-se uma janela de contexto para 1024 tokens e um tokenizador do GPT2 com vocabulário em português treinado com o wikipedia, aumentando a quantidade de texto que pode ser processada.
|
41 |
|
42 |
+
*The model was trained with a portion of the C4 corpus in Portuguese using UL2 (https://huggingface.co/google/ul2), using R-Denoising, S-Denoising, and X-Denoising, and with dropout rate of 0.0. Unlike the original work of UL2, a prefix token for S-Denoising was not used. For R-Denoising and X-Denoising, the tokens '<|NLU|>' and '<|NLG|>' and were used, respectively.
|
43 |
+
|
44 |
+
A context window of 1024 tokens was used. Also, a GPT2 tokenizer with a Portuguese vocabulary trained with Wikipedia was used to increase the amount of text that can be processed.*
|
45 |
|
46 |
## Uses
|
47 |
|
|
|
53 |
Os autores do UL2 apontam uma possivel diferença no resultado do fine-tune dependendo do modo ativado.
|
54 |
Porém, para o ult5-pt, não se notou diferença nos testes de benchmark.
|
55 |
|
56 |
+
*Fine-tunning is the recommended use for the model.
|
57 |
+
|
58 |
+
A tutorial (in portuguse) in notebook format for decoder and encoder-decoder (T5) model fine-tuning was provided: [Fine-tune Large Language Models](link here).
|
59 |
+
|
60 |
+
Span corruption modes can be activated by adding the prefixes '<|NLU|>' and '<|NLG|>' to the beginning of the text. The UL2 authors point out a possible difference in the fine-tuning result depending on the activated mode. However, for ult5-pt, no difference was noticed in benchmark tests.*
|
61 |
+
|
62 |
### Direct Use
|
63 |
|
64 |
Exemplo de geração de texto com top_k de 30
|
65 |
|
66 |
+
*Example of text generation with top_k of 30*
|
67 |
+
|
68 |
```python
|
69 |
from transformers import GPT2TokenizerFast, AutoModelForSeq2SeqLM
|
70 |
|
|
|
113 |
|
114 |
Os mesmos riscos, vieses e limitações dos outros modelos se aplicam a este, como o apontado em [GPT2](https://huggingface.co/gpt2).
|
115 |
|
116 |
+
*The same risks, biases, and limitations of other models apply to this one, as pointed out in GPT-2.*
|
117 |
+
|
118 |
## Citation
|
119 |
|
120 |
```bibtex
|