metadata

license: apache-2.0
library_name: peft
tags:
  - trl
  - sft
  - generated_from_trainer
datasets:
  - generator
base_model: mistralai/Mixtral-8x7B-Instruct-v0.1
model-index:
  - name: Mixtral_R2_v0
    results: []

Mixtral_R2_v0

This model is a fine-tuned version of mistralai/Mixtral-8x7B-Instruct-v0.1 on the generator dataset. It achieves the following results on the evaluation set:

Loss: 0.7382

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 2.5e-05
train_batch_size: 32
eval_batch_size: 8
seed: 42
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 0.03
num_epochs: 25

Training results

Training Loss	Epoch	Step	Validation Loss
2.2053	1.0	18	1.6050
1.685	2.0	36	1.4131
1.4913	3.0	54	1.2708
1.3079	4.0	72	1.1353
1.1686	5.0	90	1.0360
1.1356	6.0	108	0.9803
1.053	7.0	126	0.9382
0.9968	8.0	144	0.8994
0.947	9.0	162	0.8616
0.8981	10.0	180	0.8244
0.8726	11.0	198	0.7891
0.8211	12.0	216	0.7727
0.8126	13.0	234	0.7645
0.7889	14.0	252	0.7591
0.7837	15.0	270	0.7547
0.7792	16.0	288	0.7510
0.7507	17.0	306	0.7481
0.7483	18.0	324	0.7458
0.7429	19.0	342	0.7432
0.7362	20.0	360	0.7417
0.7495	21.0	378	0.7406
0.748	22.0	396	0.7397
0.7429	23.0	414	0.7388
0.7444	24.0	432	0.7384
0.7334	25.0	450	0.7382

Framework versions

PEFT 0.7.1
Transformers 4.36.2
Pytorch 2.1.2+cu121
Datasets 2.16.1
Tokenizers 0.15.0