Update README.md
Browse files
README.md
CHANGED
@@ -29,6 +29,54 @@ tags:
|
|
29 |
<hr>
|
30 |
|
31 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
32 |
<hr>
|
33 |
|
34 |
# EN - README
|
@@ -49,15 +97,11 @@ In support of portuguese-speaking countries. 🇦🇴🇧🇷🇨🇻🇬🇼
|
|
49 |
|
50 |
## Model Details
|
51 |
|
52 |
-
This model was fine-tuned on
|
53 |
-
|
54 |
-
## Limitations
|
55 |
-
|
56 |
-
Keep in mind the limitations of this model. It is a model with 1.1B of trained parameters and may present some glitches or hallucinations.
|
57 |
|
58 |
## Future Updates
|
59 |
|
60 |
-
- Add more data from the
|
61 |
- Make quantized versions available.
|
62 |
|
63 |
### Model Description
|
|
|
29 |
<hr>
|
30 |
|
31 |
|
32 |
+
<p align="center">
|
33 |
+
<img width="250" alt="Samba Logo" src="https://cdn-uploads.huggingface.co/production/uploads/658c21f4c1229bf113295773/J7yD7tR6y1oEH2RRxDyMT.png">
|
34 |
+
</p>
|
35 |
+
|
36 |
+
Samba is a LLM trained on portuguese language data. The model is based on [TinyLlama-1.1B](https://huggingface.co/TinyLlama/TinyLlama-1.1B-Chat-v1.0), a 1.1B parameter version of LLaMA-2.
|
37 |
+
|
38 |
+
The LLM Samba project aims to provide more LLM options in Portuguese, while also providing less complex models so that users with less computational power can take advantage of the LLMs.
|
39 |
+
|
40 |
+
In support of portuguese-speaking countries. 🇦🇴🇧🇷🇨🇻🇬🇼🇬🇶🇲🇿🇵🇹🇸🇹🇹🇱
|
41 |
+
|
42 |
+
## Detalhes do Modelo
|
43 |
+
|
44 |
+
Esse modelo foi fine-tunado em quatro datasets ([rebel-pt](https://huggingface.co/datasets/ju-resplande/rebel-pt), [OIG_small_chip2_portuguese_brasil](https://huggingface.co/datasets/paulofinardi/OIG_small_chip2_portuguese_brasil), [Cabrita-lora-ptbr](https://huggingface.co/datasets/Guilherme34/Cabrita-lora-ptbr) e [Canarim-Instruct-PTBR-Dataset](https://huggingface.co/datasets/dominguesm/Canarim-Instruct-PTBR-Dataset)) com dados de texto na língua portuguesa, contendo aproximadamente 1.4 million de amostras.
|
45 |
+
|
46 |
+
## Atualizações Futuras
|
47 |
+
|
48 |
+
- Adicionar mais dados de textos da língua portuguesa.
|
49 |
+
- Disponibilizar versões quantizadas.
|
50 |
+
|
51 |
+
### Descrição do Modelo
|
52 |
+
|
53 |
+
- **Desenvolvido por:** [Leonardo Souza](https://huggingface.co/lrds-code)
|
54 |
+
- **Tipo do Modelo:** LLaMA-Based
|
55 |
+
- **Licença:** Academic Free License v3.0
|
56 |
+
- **Fine-tunado do modelo:** [TinyLlama-1.1B](https://huggingface.co/TinyLlama/TinyLlama-1.1B-Chat-v1.0)
|
57 |
+
|
58 |
+
## Como usar
|
59 |
+
|
60 |
+
```python
|
61 |
+
from transformers import AutoModelForCausalLM, AutoTokenizer
|
62 |
+
|
63 |
+
model = AutoModelForCausalLM.from_pretrained('lrds-code/samba-1.1B')
|
64 |
+
tokenizer = AutoTokenizer.from_pretrained('lrds-code/samba-1.1B')
|
65 |
+
|
66 |
+
text = 'Pergunta: Como desenvolver habilidades de programação em python?'
|
67 |
+
inputs = tokenizer(text, return_tensors='pt')
|
68 |
+
|
69 |
+
outputs = model.generate(**inputs)
|
70 |
+
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
|
71 |
+
|
72 |
+
## Pergunta: Como desenvolver habilidades de programação em python?
|
73 |
+
## Resposta: Para desenvolver habilidades de programação em Python, você precisa aprender a ler e escrever código.
|
74 |
+
## Você também precisa entender o que significa cada parte do código e como ela funciona.
|
75 |
+
## Você também precisa entender como usar bibliotecas e frameworks para criar aplicativos.
|
76 |
+
## Além disso, você precisa entender como usar o IDE (Integrated Development Environment) para desenvolver e testar seu código.
|
77 |
+
|
78 |
+
```
|
79 |
+
|
80 |
<hr>
|
81 |
|
82 |
# EN - README
|
|
|
97 |
|
98 |
## Model Details
|
99 |
|
100 |
+
This model was fine-tuned on four datasets ([rebel-pt](https://huggingface.co/datasets/ju-resplande/rebel-pt), [OIG_small_chip2_portuguese_brasil](https://huggingface.co/datasets/paulofinardi/OIG_small_chip2_portuguese_brasil), [Cabrita-lora-ptbr](https://huggingface.co/datasets/Guilherme34/Cabrita-lora-ptbr) and [Canarim-Instruct-PTBR-Dataset](https://huggingface.co/datasets/dominguesm/Canarim-Instruct-PTBR-Dataset)) with portuguese data that total approximately 1.4 million samples.
|
|
|
|
|
|
|
|
|
101 |
|
102 |
## Future Updates
|
103 |
|
104 |
+
- Add more data from the portuguese language.
|
105 |
- Make quantized versions available.
|
106 |
|
107 |
### Model Description
|