lrds-code commited on
Commit
3ec1139
·
verified ·
1 Parent(s): a8b54ad

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +50 -6
README.md CHANGED
@@ -29,6 +29,54 @@ tags:
29
  <hr>
30
 
31
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
32
  <hr>
33
 
34
  # EN - README
@@ -49,15 +97,11 @@ In support of portuguese-speaking countries. 🇦🇴🇧🇷🇨🇻🇬🇼
49
 
50
  ## Model Details
51
 
52
- This model was fine-tuned on two datasets ([rebel-pt](https://huggingface.co/datasets/ju-resplande/rebel-pt), [OIG_small_chip2_portuguese_brasil](https://huggingface.co/datasets/paulofinardi/OIG_small_chip2_portuguese_brasil), [Cabrita-lora-ptbr](https://huggingface.co/datasets/Guilherme34/Cabrita-lora-ptbr) and [Canarim-Instruct-PTBR-Dataset](https://huggingface.co/datasets/dominguesm/Canarim-Instruct-PTBR-Dataset)) with portuguese data that total approximately 1.4 million samples.
53
-
54
- ## Limitations
55
-
56
- Keep in mind the limitations of this model. It is a model with 1.1B of trained parameters and may present some glitches or hallucinations.
57
 
58
  ## Future Updates
59
 
60
- - Add more data from the Portuguese language.
61
  - Make quantized versions available.
62
 
63
  ### Model Description
 
29
  <hr>
30
 
31
 
32
+ <p align="center">
33
+ <img width="250" alt="Samba Logo" src="https://cdn-uploads.huggingface.co/production/uploads/658c21f4c1229bf113295773/J7yD7tR6y1oEH2RRxDyMT.png">
34
+ </p>
35
+
36
+ Samba is a LLM trained on portuguese language data. The model is based on [TinyLlama-1.1B](https://huggingface.co/TinyLlama/TinyLlama-1.1B-Chat-v1.0), a 1.1B parameter version of LLaMA-2.
37
+
38
+ The LLM Samba project aims to provide more LLM options in Portuguese, while also providing less complex models so that users with less computational power can take advantage of the LLMs.
39
+
40
+ In support of portuguese-speaking countries. 🇦🇴🇧🇷🇨🇻🇬🇼🇬🇶🇲🇿🇵🇹🇸🇹🇹🇱
41
+
42
+ ## Detalhes do Modelo
43
+
44
+ Esse modelo foi fine-tunado em quatro datasets ([rebel-pt](https://huggingface.co/datasets/ju-resplande/rebel-pt), [OIG_small_chip2_portuguese_brasil](https://huggingface.co/datasets/paulofinardi/OIG_small_chip2_portuguese_brasil), [Cabrita-lora-ptbr](https://huggingface.co/datasets/Guilherme34/Cabrita-lora-ptbr) e [Canarim-Instruct-PTBR-Dataset](https://huggingface.co/datasets/dominguesm/Canarim-Instruct-PTBR-Dataset)) com dados de texto na língua portuguesa, contendo aproximadamente 1.4 million de amostras.
45
+
46
+ ## Atualizações Futuras
47
+
48
+ - Adicionar mais dados de textos da língua portuguesa.
49
+ - Disponibilizar versões quantizadas.
50
+
51
+ ### Descrição do Modelo
52
+
53
+ - **Desenvolvido por:** [Leonardo Souza](https://huggingface.co/lrds-code)
54
+ - **Tipo do Modelo:** LLaMA-Based
55
+ - **Licença:** Academic Free License v3.0
56
+ - **Fine-tunado do modelo:** [TinyLlama-1.1B](https://huggingface.co/TinyLlama/TinyLlama-1.1B-Chat-v1.0)
57
+
58
+ ## Como usar
59
+
60
+ ```python
61
+ from transformers import AutoModelForCausalLM, AutoTokenizer
62
+
63
+ model = AutoModelForCausalLM.from_pretrained('lrds-code/samba-1.1B')
64
+ tokenizer = AutoTokenizer.from_pretrained('lrds-code/samba-1.1B')
65
+
66
+ text = 'Pergunta: Como desenvolver habilidades de programação em python?'
67
+ inputs = tokenizer(text, return_tensors='pt')
68
+
69
+ outputs = model.generate(**inputs)
70
+ print(tokenizer.decode(outputs[0], skip_special_tokens=True))
71
+
72
+ ## Pergunta: Como desenvolver habilidades de programação em python?
73
+ ## Resposta: Para desenvolver habilidades de programação em Python, você precisa aprender a ler e escrever código.
74
+ ## Você também precisa entender o que significa cada parte do código e como ela funciona.
75
+ ## Você também precisa entender como usar bibliotecas e frameworks para criar aplicativos.
76
+ ## Além disso, você precisa entender como usar o IDE (Integrated Development Environment) para desenvolver e testar seu código.
77
+
78
+ ```
79
+
80
  <hr>
81
 
82
  # EN - README
 
97
 
98
  ## Model Details
99
 
100
+ This model was fine-tuned on four datasets ([rebel-pt](https://huggingface.co/datasets/ju-resplande/rebel-pt), [OIG_small_chip2_portuguese_brasil](https://huggingface.co/datasets/paulofinardi/OIG_small_chip2_portuguese_brasil), [Cabrita-lora-ptbr](https://huggingface.co/datasets/Guilherme34/Cabrita-lora-ptbr) and [Canarim-Instruct-PTBR-Dataset](https://huggingface.co/datasets/dominguesm/Canarim-Instruct-PTBR-Dataset)) with portuguese data that total approximately 1.4 million samples.
 
 
 
 
101
 
102
  ## Future Updates
103
 
104
+ - Add more data from the portuguese language.
105
  - Make quantized versions available.
106
 
107
  ### Model Description