CabraQwen7b / README.md
nicolasdec's picture
Update README.md
a253df1 verified
|
raw
history blame
12.3 kB
metadata
language:
  - pt
  - en
license: cc
tags:
  - text-generation-inference
  - transformers
  - qwen
  - gguf
  - brazil
  - brasil
  - portuguese
base_model: Qwen/Qwen1.5-7B-Chat
pipeline_tag: text-generation

Cabra Qwen 7b

Esse modelo é um finetune do Qwen 1.5 7b Chat com o dataset interno Cabra 10k. Esse modelo é optimizado para português e responde em portuguese nativamente. Ele apresenta melhoria em varios benchmarks brasileiros em comparação com o modelo base.

Exprimente o nosso demo aqui: CabraChat.

Conheça os nossos outros modelos: Cabra.

Detalhes do Modelo

Modelo: Qwen 1.5 7b chat

Qwen1.5 é uma série de modelos de linguagem que inclui modelos de linguagem decodificadores de diferentes tamanhos de modelo. Para cada tamanho, lançamos o modelo de linguagem base e o modelo de chat alinhado. Baseia-se na arquitetura Transformer com ativação SwiGLU, viés de atenção QKV, atenção de consulta em grupo, mistura de atenção de janela deslizante e atenção completa, etc. Adicionalmente, temos um tokenizador melhorado adaptativo a múltiplas línguas naturais e códigos. Para a versão beta, temporariamente não incluímos GQA e a mistura de SWA e atenção completa.

dataset: Cabra 10k

Dataset interno para finetuning. Vamos lançar em breve.

Quantização / GGUF

Colocamos diversas versões (GGUF) quantanizadas no branch "quantanization".

Exemplo

<s> [INST] What makes Brasília special? [/INST] Brasília, a capital do Brasil, é uma cidade única e especial por várias razões. Estabelecida como o novo centro político do país em 1960, ela foi projetada pelo arquiteto Oscar Niemeyer e pelo urbanista Lúcio Costa para ser um símbolo da modernidade e progresso brasileiro.

Aqui estão algumas características que tornam Brasília especial:

Design Urbano: A cidade é conhecida por seu design inovador e futurista, com seus arranha-céus imponentes, grandes praças abertas e espaços verdes extensos. O layout da cidade segue um padrão de grade, com cada distrito representando diferentes aspectos da cultura e história brasileira.

Praça dos Três Poderes: Está enorme praça central é cercada pelos prédios da Assembleia Nacional (conhecido como "Palácio do Planalto"), Senado Federal e Supremo Tribunal Federal. É um marco icônico da cidade e um local popular para eventos políticos.

Monumentos e Arquitetura: Brasília possui muitos monumentos impressionantes e edifícios arquitetônicos notáveis, incluindo o Museu Nacional de História Natural e Ciências, o Planetário Anhembi, o Palácio da Alvorada e a Basílica Nossa Senhora Aparecida.

Espaços Verdes: A cidade é cercada por parques e reservas naturais, proporcionando aos moradores e visitantes amplos espaços para relaxar, praticar esportes ou simplesmente apreciar a beleza natural do ambiente.

Cultura e Eventos: Como a capital nacional, Brasília hospeda vários festivais culturais e eventos importantes ao longo do ano, como o Festival Internacional de Cinema de Brasília, o Carnaval das Nações Unidas e o Festival de Música de Verão de Brasília.
Significado Histórico: A construção de Brasília marcou um momento significativo na história do Brasil, pois simbolizou sua independência política e busca pela modernização. Ela também serviu como exemplo para outros países em desenvolvimento que buscavam criar novas capitais.

Inclusão Social: Brasília foi projetada levando em consideração a inclusão social, com bairros bem planejados distribuídos uniformemente pela cidade para garantir acesso igualitário à educação, saúde e serviços públicos.

Em resumo, Brasília é uma cidade única e especial devido ao seu design inovador, pontos turísticos icônicos, conexão histórica com o desenvolvimento do Brasil e compromisso com a inclusão social.
</s>

Paramentros de trainamento

- learning_rate: 1e-05
- train_batch_size: 4
- eval_batch_size: 4
- seed: 42
- distributed_type: multi-GPU
- num_devices: 2
- gradient_accumulation_steps: 8
- total_train_batch_size: 64
- total_eval_batch_size: 8
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: cosine
- lr_scheduler_warmup_ratio: 0.01
- num_epochs: 3

Framework

  • Transformers 4.39.0.dev0
  • Pytorch 2.1.2+cu118
  • Datasets 2.14.6
  • Tokenizers 0.15.2

Uso

O modelo é destinado, por agora, a fins de pesquisa. As áreas e tarefas de pesquisa possíveis incluem:

  • Pesquisa sobre modelos gerativos.
  • Investigação e compreensão das limitações e viéses de modelos gerativos.

Proibido para uso comercial. Somente Pesquisa.

Evals

Tasks Version Filter n-shot Metric Value Stderr
assin2_rte 1.1 all 15 f1_macro 0.8852 ± 0.0046
all 15 acc 0.8852 ± 0.0046
assin2_sts 1.1 all 15 pearson 0.7618 ± 0.0067
all 15 mse 0.5283 ± N/A
bluex 1.1 all 3 acc 0.5605 ± 0.0107
exam_id__USP_2021 3 acc 0.5385 ± 0.0400
exam_id__UNICAMP_2021_2 3 acc 0.5490 ± 0.0401
exam_id__USP_2019 3 acc 0.4750 ± 0.0455
exam_id__USP_2022 3 acc 0.4898 ± 0.0413
exam_id__USP_2020 3 acc 0.5714 ± 0.0381
exam_id__UNICAMP_2019 3 acc 0.6200 ± 0.0398
exam_id__USP_2018 3 acc 0.5000 ± 0.0392
exam_id__USP_2024 3 acc 0.7073 ± 0.0411
exam_id__UNICAMP_2020 3 acc 0.6000 ± 0.0382
exam_id__UNICAMP_2024 3 acc 0.6000 ± 0.0422
exam_id__USP_2023 3 acc 0.5682 ± 0.0429
exam_id__UNICAMP_2018 3 acc 0.4444 ± 0.0391
exam_id__UNICAMP_2021_1 3 acc 0.4783 ± 0.0425
exam_id__UNICAMP_2023 3 acc 0.6047 ± 0.0430
exam_id__UNICAMP_2022 3 acc 0.7179 ± 0.0416
enem 1.1 all 3 acc 0.6921 ± 0.0071
exam_id__2012 3 acc 0.7241 ± 0.0240
exam_id__2015 3 acc 0.7059 ± 0.0241
exam_id__2023 3 acc 0.6741 ± 0.0233
exam_id__2016_2 3 acc 0.6992 ± 0.0238
exam_id__2022 3 acc 0.6090 ± 0.0245
exam_id__2010 3 acc 0.7436 ± 0.0233
exam_id__2016 3 acc 0.6612 ± 0.0248
exam_id__2009 3 acc 0.7391 ± 0.0236
exam_id__2014 3 acc 0.6606 ± 0.0262
exam_id__2017 3 acc 0.7155 ± 0.0241
exam_id__2011 3 acc 0.7778 ± 0.0222
exam_id__2013 3 acc 0.6019 ± 0.0272
faquad_nli 1.1 all 15 f1_macro 0.5780 ± 0.0165
all 15 acc 0.7785 ± 0.0115
hatebr_offensive_binary 1.0 all 25 f1_macro 0.7632 ± 0.0082
all 25 acc 0.7736 ± 0.0079
oab_exams 1.5 all 3 acc 0.4323 ± 0.0061
exam_id__2015-18 3 acc 0.5000 ± 0.0322
exam_id__2015-17 3 acc 0.5128 ± 0.0326
exam_id__2010-01 3 acc 0.3412 ± 0.0297
exam_id__2016-21 3 acc 0.4000 ± 0.0317
exam_id__2012-06 3 acc 0.4500 ± 0.0322
exam_id__2011-05 3 acc 0.3750 ± 0.0313
exam_id__2016-20a 3 acc 0.3250 ± 0.0302
exam_id__2018-25 3 acc 0.4250 ± 0.0319
exam_id__2016-19 3 acc 0.4359 ± 0.0325
exam_id__2017-22 3 acc 0.4250 ± 0.0319
exam_id__2016-20 3 acc 0.3875 ± 0.0315
exam_id__2014-14 3 acc 0.4875 ± 0.0324
exam_id__2017-24 3 acc 0.4625 ± 0.0322
exam_id__2017-23 3 acc 0.4250 ± 0.0320
exam_id__2012-06a 3 acc 0.4625 ± 0.0321
exam_id__2014-15 3 acc 0.5256 ± 0.0326
exam_id__2012-09 3 acc 0.3377 ± 0.0310
exam_id__2012-07 3 acc 0.4500 ± 0.0322
exam_id__2014-13 3 acc 0.4500 ± 0.0322
exam_id__2012-08 3 acc 0.4750 ± 0.0323
exam_id__2013-11 3 acc 0.4250 ± 0.0319
exam_id__2011-03 3 acc 0.3636 ± 0.0279
exam_id__2013-12 3 acc 0.4625 ± 0.0321
exam_id__2011-04 3 acc 0.3875 ± 0.0315
exam_id__2010-02 3 acc 0.5400 ± 0.0288
exam_id__2013-10 3 acc 0.4250 ± 0.0320
exam_id__2015-16 3 acc 0.4125 ± 0.0318
portuguese_hate_speech_binary 1.0 all 25 f1_macro 0.6969 ± 0.0119
all 25 acc 0.7356 ± 0.0107