uploaded readme

33960df verified 3 months ago

4.9 kB

	Quantization made by Richard Erkhov.

	[Github](https://github.com/RichardErkhov)

	[Discord](https://discord.gg/pvy7H8DZMG)

	[Request more models](https://github.com/RichardErkhov/quant_request)


	orpo-lora-phi2 - GGUF
	- Model creator: https://huggingface.co/Amu/
	- Original model: https://huggingface.co/Amu/orpo-lora-phi2/


	\| Name \| Quant method \| Size \|
	\| ---- \| ---- \| ---- \|
	\| [orpo-lora-phi2.Q2_K.gguf](https://huggingface.co/RichardErkhov/Amu_-_orpo-lora-phi2-gguf/blob/main/orpo-lora-phi2.Q2_K.gguf) \| Q2_K \| 1.03GB \|
	\| [orpo-lora-phi2.IQ3_XS.gguf](https://huggingface.co/RichardErkhov/Amu_-_orpo-lora-phi2-gguf/blob/main/orpo-lora-phi2.IQ3_XS.gguf) \| IQ3_XS \| 1.12GB \|
	\| [orpo-lora-phi2.IQ3_S.gguf](https://huggingface.co/RichardErkhov/Amu_-_orpo-lora-phi2-gguf/blob/main/orpo-lora-phi2.IQ3_S.gguf) \| IQ3_S \| 1.16GB \|
	\| [orpo-lora-phi2.Q3_K_S.gguf](https://huggingface.co/RichardErkhov/Amu_-_orpo-lora-phi2-gguf/blob/main/orpo-lora-phi2.Q3_K_S.gguf) \| Q3_K_S \| 1.16GB \|
	\| [orpo-lora-phi2.IQ3_M.gguf](https://huggingface.co/RichardErkhov/Amu_-_orpo-lora-phi2-gguf/blob/main/orpo-lora-phi2.IQ3_M.gguf) \| IQ3_M \| 1.23GB \|
	\| [orpo-lora-phi2.Q3_K.gguf](https://huggingface.co/RichardErkhov/Amu_-_orpo-lora-phi2-gguf/blob/main/orpo-lora-phi2.Q3_K.gguf) \| Q3_K \| 1.33GB \|
	\| [orpo-lora-phi2.Q3_K_M.gguf](https://huggingface.co/RichardErkhov/Amu_-_orpo-lora-phi2-gguf/blob/main/orpo-lora-phi2.Q3_K_M.gguf) \| Q3_K_M \| 1.33GB \|
	\| [orpo-lora-phi2.Q3_K_L.gguf](https://huggingface.co/RichardErkhov/Amu_-_orpo-lora-phi2-gguf/blob/main/orpo-lora-phi2.Q3_K_L.gguf) \| Q3_K_L \| 1.47GB \|
	\| [orpo-lora-phi2.IQ4_XS.gguf](https://huggingface.co/RichardErkhov/Amu_-_orpo-lora-phi2-gguf/blob/main/orpo-lora-phi2.IQ4_XS.gguf) \| IQ4_XS \| 1.43GB \|
	\| [orpo-lora-phi2.Q4_0.gguf](https://huggingface.co/RichardErkhov/Amu_-_orpo-lora-phi2-gguf/blob/main/orpo-lora-phi2.Q4_0.gguf) \| Q4_0 \| 1.49GB \|
	\| [orpo-lora-phi2.IQ4_NL.gguf](https://huggingface.co/RichardErkhov/Amu_-_orpo-lora-phi2-gguf/blob/main/orpo-lora-phi2.IQ4_NL.gguf) \| IQ4_NL \| 1.5GB \|
	\| [orpo-lora-phi2.Q4_K_S.gguf](https://huggingface.co/RichardErkhov/Amu_-_orpo-lora-phi2-gguf/blob/main/orpo-lora-phi2.Q4_K_S.gguf) \| Q4_K_S \| 1.51GB \|
	\| [orpo-lora-phi2.Q4_K.gguf](https://huggingface.co/RichardErkhov/Amu_-_orpo-lora-phi2-gguf/blob/main/orpo-lora-phi2.Q4_K.gguf) \| Q4_K \| 1.62GB \|
	\| [orpo-lora-phi2.Q4_K_M.gguf](https://huggingface.co/RichardErkhov/Amu_-_orpo-lora-phi2-gguf/blob/main/orpo-lora-phi2.Q4_K_M.gguf) \| Q4_K_M \| 1.62GB \|
	\| [orpo-lora-phi2.Q4_1.gguf](https://huggingface.co/RichardErkhov/Amu_-_orpo-lora-phi2-gguf/blob/main/orpo-lora-phi2.Q4_1.gguf) \| Q4_1 \| 1.65GB \|
	\| [orpo-lora-phi2.Q5_0.gguf](https://huggingface.co/RichardErkhov/Amu_-_orpo-lora-phi2-gguf/blob/main/orpo-lora-phi2.Q5_0.gguf) \| Q5_0 \| 1.8GB \|
	\| [orpo-lora-phi2.Q5_K_S.gguf](https://huggingface.co/RichardErkhov/Amu_-_orpo-lora-phi2-gguf/blob/main/orpo-lora-phi2.Q5_K_S.gguf) \| Q5_K_S \| 1.8GB \|
	\| [orpo-lora-phi2.Q5_K.gguf](https://huggingface.co/RichardErkhov/Amu_-_orpo-lora-phi2-gguf/blob/main/orpo-lora-phi2.Q5_K.gguf) \| Q5_K \| 1.87GB \|
	\| [orpo-lora-phi2.Q5_K_M.gguf](https://huggingface.co/RichardErkhov/Amu_-_orpo-lora-phi2-gguf/blob/main/orpo-lora-phi2.Q5_K_M.gguf) \| Q5_K_M \| 1.87GB \|
	\| [orpo-lora-phi2.Q5_1.gguf](https://huggingface.co/RichardErkhov/Amu_-_orpo-lora-phi2-gguf/blob/main/orpo-lora-phi2.Q5_1.gguf) \| Q5_1 \| 1.95GB \|
	\| [orpo-lora-phi2.Q6_K.gguf](https://huggingface.co/RichardErkhov/Amu_-_orpo-lora-phi2-gguf/blob/main/orpo-lora-phi2.Q6_K.gguf) \| Q6_K \| 2.13GB \|
	\| [orpo-lora-phi2.Q8_0.gguf](https://huggingface.co/RichardErkhov/Amu_-_orpo-lora-phi2-gguf/blob/main/orpo-lora-phi2.Q8_0.gguf) \| Q8_0 \| 2.75GB \|




	Original model description:
	---
	language:
	- en
	license: apache-2.0
	tags:
	- generated_from_trainer
	base_model: microsoft/phi-2
	pipeline_tag: text-generation
	---

	# outputs
	This model is a fine-tuned version of [microsoft/phi-2](https://huggingface.co/microsoft/phi-2) using [trl](https://github.com/huggingface/trl) on [ultrafeedback dataset](https://huggingface.co/datasets/HuggingFaceH4/ultrafeedback_binarized).

	# What's new
	A test for [ORPO: Monolithic Preference Optimization without Reference Model](https://arxiv.org/pdf/2403.07691.pdf) method using trl library.

	## How to reproduce
	```bash
	accelerate launch --config_file=/path/to/trl/examples/accelerate_configs/deepspeed_zero2.yaml \
	--num_processes 8 \
	/path/to/trl/scripts/orpo.py \
	--model_name_or_path="microsoft/phi-2" \
	--per_device_train_batch_size 1 \
	--max_steps 8000 \
	--learning_rate 8e-5 \
	--gradient_accumulation_steps 1 \
	--logging_steps 20 \
	--eval_steps 2000 \
	--output_dir="orpo-lora-phi2" \
	--optim rmsprop \
	--warmup_steps 150 \
	--bf16 \
	--logging_first_step \
	--no_remove_unused_columns \
	--use_peft \
	--lora_r=16 \
	--lora_alpha=16 \
	--dataset HuggingFaceH4/ultrafeedback_binarized
	```