Cabra 72b

Cabra 72b รฉ um finetune do Qwen 1.5 72b Chat com o dataset Cabra 30k. Esse modelo รฉ otimizado para portuguรชs e responde em portuguese. Ele apresenta melhoria em vรกrios benchmarks brasileiros em comparaรงรฃo com o modelo base.

Conheรงa os nossos outros modelos Cabra.

Detalhes do modelo base

Modelo: Qwen 1.5 72b chat

Qwen1.5 รฉ uma sรฉrie de modelos de linguagem que inclui modelos de linguagem decodificadores de diferentes tamanhos de modelo. Para cada tamanho, lanรงamos o modelo de linguagem base e o modelo de chat alinhado. Baseia-se na arquitetura Transformer com ativaรงรฃo SwiGLU, viรฉs de atenรงรฃo QKV, atenรงรฃo de consulta em grupo, mistura de atenรงรฃo de janela deslizante e atenรงรฃo completa, etc. Adicionalmente, temos um tokenizador melhorado adaptativo a mรบltiplas lรญnguas naturais e cรณdigos. Para a versรฃo beta, temporariamente nรฃo incluรญmos GQA e a mistura de SWA e atenรงรฃo completa.

dataset: Cabra 30k

Dataset interno para fine-tuning. Vamos lanรงar em breve.

Quantizaรงรฃo / GGUF

Colocamos diversas versรตes (GGUF) quantanizadas no branch "quantanization". Infelizmente o HF limita o tamanho de arquivo a <50gb.

Exemplo

<s> [INST]Quem sรฃo os jogadores brasileiros de futebol mais conhecidos, atuais e pasados? [/INST] 

O Brasil tem uma rica histรณria na produรงรฃo de alguns dos maiores jogadores de futebol do mundo. Alguns dos jogadores brasileiros mais importantes atualmente e que jรก jogaram incluem:

Pelรฉ - amplamente considerado um dos maiores jogadores de todos os tempos, o Pelรฉ venceu trรชs Copas do Mundo com o Brasil e marcou mais de 1.000 gols em sua carreira.
Ronaldo Nazรกrio de Lima - conhecido como Ronaldo, este jogador de ataque รฉ o segundo maior artilheiro da histรณria da seleรงรฃo brasileira e ajudou o Brasil a vencer duas Copas do Mundo.

Ronaldinho Gaรบcho - um criativo meio-campista ofensivo que jogou pelo Barcelona e pela AC Milan, o Ronaldinho foi nomeado Jogador Mundial FIFA de 2004 e ajudou o Brasil a vencer a Copa do Mundo de 2002.

Neymar Jr. - um dos melhores jogadores do mundo hoje, o Neymar desempenhou um papel fundamental ao liderar o Brasil para vรกrias vitรณrias em torneios principais e รฉ conhecido por suas habilidades incrรญveis de drible e capacidade de marcar gols.

Esses sรฃo apenas alguns exemplos dos muitos talentosos jogadores de futebol que vieram do Brasil ao longo de sua rica histรณria.
</s>

Paramentros de trainamento

- train/epoch: 3
- train/global_step: 1,893
- train/grad_norm: 0.5843151168226935
- train/learning_rate: 0.00000000006323276533
- train/loss: 0.4379
- train/total_flos: 7,334,660,338,089,984
- train/train_loss: 0.628420232404053
- train/train_runtime: 415,863.2395
- train/train_samples_per_second: 0.437
- train/train_steps_per_second: 0.005
- GPU: 8x A100 80GB SXB

Framework

  • Transformers 4.39.0.dev0
  • Pytorch 2.1.2+cu118
  • Datasets 2.14.6
  • Tokenizers 0.15.2

Uso

O modelo รฉ destinado, por agora, a fins de pesquisa. As รกreas e tarefas de pesquisa possรญveis incluem:

  • Pesquisa sobre modelos gerativos.
  • Investigaรงรฃo e compreensรฃo das limitaรงรตes e vieses de modelos gerativos.

**Proibido para uso comercial. Somente Pesquisa. Entre em contato para mais informaรงรตes. **

Evals

Tasks Version Filter n-shot Metric Value ยฑ Stderr
assin2_rte 1.1 all 15 f1_macro 0.9358 ยฑ 0.0035
all 15 acc 0.9359 ยฑ 0.0035
assin2_sts 1.1 all 15 pearson 0.7803 ยฑ 0.0068
all 15 mse 0.5815 ยฑ N/A
bluex 1.1 all 3 acc 0.6745 ยฑ 0.0101
exam_id__USP_2019 3 acc 0.5500 ยฑ 0.0453
exam_id__UNICAMP_2021_1 3 acc 0.5870 ยฑ 0.0418
exam_id__USP_2020 3 acc 0.6250 ยฑ 0.0373
exam_id__USP_2022 3 acc 0.6939 ยฑ 0.0381
exam_id__UNICAMP_2019 3 acc 0.7200 ยฑ 0.0367
exam_id__UNICAMP_2024 3 acc 0.5778 ยฑ 0.0425
exam_id__USP_2018 3 acc 0.5926 ยฑ 0.0385
exam_id__USP_2021 3 acc 0.6538 ยฑ 0.0381
exam_id__UNICAMP_2023 3 acc 0.7442 ยฑ 0.0385
exam_id__UNICAMP_2021_2 3 acc 0.6667 ยฑ 0.0380
exam_id__UNICAMP_2020 3 acc 0.7091 ยฑ 0.0355
exam_id__USP_2023 3 acc 0.8182 ยฑ 0.0336
exam_id__USP_2024 3 acc 0.8537 ยฑ 0.0318
exam_id__UNICAMP_2022 3 acc 0.6667 ยฑ 0.0435
exam_id__UNICAMP_2018 3 acc 0.6852 ยฑ 0.0364
enem 1.1 all 3 acc 0.8062 ยฑ 0.0060
exam_id__2016_2 3 acc 0.7967 ยฑ 0.0210
exam_id__2014 3 acc 0.8165 ยฑ 0.0214
exam_id__2010 3 acc 0.8291 ยฑ 0.0202
exam_id__2023 3 acc 0.8000 ยฑ 0.0199
exam_id__2009 3 acc 0.7913 ยฑ 0.0219
exam_id__2017 3 acc 0.7931 ยฑ 0.0217
exam_id__2011 3 acc 0.8718 ยฑ 0.0178
exam_id__2015 3 acc 0.8151 ยฑ 0.0205
exam_id__2012 3 acc 0.8621 ยฑ 0.0185
exam_id__2016 3 acc 0.8430 ยฑ 0.0190
exam_id__2013 3 acc 0.7870 ยฑ 0.0228
exam_id__2022 3 acc 0.6842 ยฑ 0.0233
faquad_nli 1.1 all 15 f1_macro 0.4545 ยฑ 0.0081
all 15 acc 0.7877 ยฑ 0.0113
hatebr_offensive_binary 1.0 all 25 f1_macro 0.7212 ยฑ 0.0087
all 25 acc 0.7393 ยฑ 0.0083
oab_exams 1.5 all 3 acc 0.5718 ยฑ 0.0061

Open Portuguese LLM Leaderboard Evaluation Results

Detailed results can be found here and on the ๐Ÿš€ Open Portuguese LLM Leaderboard

Metric Value
Average 70.52
ENEM Challenge (No Images) 80.62
BLUEX (No Images) 67.45
OAB Exams 57.18
Assin2 RTE 93.58
Assin2 STS 78.03
FaQuAD NLI 45.45
HateBR Binary 72.12
PT Hate Speech Binary 68.65
tweetSentBR 71.64
Downloads last month
32
Safetensors
Model size
72.3B params
Tensor type
BF16
ยท
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for botbot-ai/Cabra-72b

Base model

Qwen/Qwen1.5-72B
Finetuned
(3)
this model
Quantizations
2 models

Space using botbot-ai/Cabra-72b 1

Collection including botbot-ai/Cabra-72b

Evaluation results