Quantization made by Richard Erkhov.

orpo-lora-phi2 - GGUF

Model creator: https://huggingface.co/Amu/
Original model: https://huggingface.co/Amu/orpo-lora-phi2/

Name	Quant method	Size
orpo-lora-phi2.Q2_K.gguf	Q2_K	1.03GB
orpo-lora-phi2.IQ3_XS.gguf	IQ3_XS	1.12GB
orpo-lora-phi2.IQ3_S.gguf	IQ3_S	1.16GB
orpo-lora-phi2.Q3_K_S.gguf	Q3_K_S	1.16GB
orpo-lora-phi2.IQ3_M.gguf	IQ3_M	1.23GB
orpo-lora-phi2.Q3_K.gguf	Q3_K	1.33GB
orpo-lora-phi2.Q3_K_M.gguf	Q3_K_M	1.33GB
orpo-lora-phi2.Q3_K_L.gguf	Q3_K_L	1.47GB
orpo-lora-phi2.IQ4_XS.gguf	IQ4_XS	1.43GB
orpo-lora-phi2.Q4_0.gguf	Q4_0	1.49GB
orpo-lora-phi2.IQ4_NL.gguf	IQ4_NL	1.5GB
orpo-lora-phi2.Q4_K_S.gguf	Q4_K_S	1.51GB
orpo-lora-phi2.Q4_K.gguf	Q4_K	1.62GB
orpo-lora-phi2.Q4_K_M.gguf	Q4_K_M	1.62GB
orpo-lora-phi2.Q4_1.gguf	Q4_1	1.65GB
orpo-lora-phi2.Q5_0.gguf	Q5_0	1.8GB
orpo-lora-phi2.Q5_K_S.gguf	Q5_K_S	1.8GB
orpo-lora-phi2.Q5_K.gguf	Q5_K	1.87GB
orpo-lora-phi2.Q5_K_M.gguf	Q5_K_M	1.87GB
orpo-lora-phi2.Q5_1.gguf	Q5_1	1.95GB
orpo-lora-phi2.Q6_K.gguf	Q6_K	2.13GB
orpo-lora-phi2.Q8_0.gguf	Q8_0	2.75GB

Original model description:

language: - en license: apache-2.0 tags: - generated_from_trainer base_model: microsoft/phi-2 pipeline_tag: text-generation

outputs

This model is a fine-tuned version of microsoft/phi-2 using trl on ultrafeedback dataset.

What's new

A test for ORPO: Monolithic Preference Optimization without Reference Model method using trl library.

How to reproduce

accelerate launch --config_file=/path/to/trl/examples/accelerate_configs/deepspeed_zero2.yaml \
    --num_processes 8 \
    /path/to/trl/scripts/orpo.py \
    --model_name_or_path="microsoft/phi-2" \
    --per_device_train_batch_size 1 \
    --max_steps 8000 \
    --learning_rate 8e-5 \
    --gradient_accumulation_steps 1 \
    --logging_steps 20 \
    --eval_steps 2000 \
    --output_dir="orpo-lora-phi2" \
    --optim rmsprop \
    --warmup_steps 150 \
    --bf16 \
    --logging_first_step \
    --no_remove_unused_columns \
    --use_peft \
    --lora_r=16 \
    --lora_alpha=16 \
    --dataset HuggingFaceH4/ultrafeedback_binarized