Spaces:

Steven10429
/

apply_lora_and_quantize

Paused

Steven10429 commited on Feb 13

Commit

05c88c1

1 Parent(s): 45da339

disk

Files changed (1) hide show

app.py CHANGED Viewed

@@ -114,14 +114,14 @@ def download_and_merge_model(base_model_name, lora_model_name, output_dir, devic
     """
     os.makedirs("temp", exist_ok=True)
     log.info("Loading base model...")
-    model = AutoModelForCausalLM.from_pretrained(base_model_name, low_cpu_mem_usage=True, trust_remote_code=True, offload_folder="temp")
     log.info("Loading adapter tokenizer...")
-    adapter_tokenizer = AutoTokenizer.from_pretrained(lora_model_name, trust_remote_code=True, offload_folder="temp")
     log.info("Resizing token embeddings...")
     added_tokens_decoder = adapter_tokenizer.added_tokens_decoder
     model.resize_token_embeddings(adapter_tokenizer.vocab_size + len(added_tokens_decoder))
     log.info("Loading LoRA adapter...")
-    peft_model = PeftModel.from_pretrained(model, lora_model_name, low_cpu_mem_usage=True, trust_remote_code=True, offload_folder="temp")
     log.info("Merging and unloading model...")
     model = peft_model.merge_and_unload()
     log.info("Saving model...")
@@ -337,7 +337,7 @@ def create_ui():
                 )
                 quant_method = gr.CheckboxGroup(
                     choices=["Q2_K", "Q4_K", "IQ4_NL", "Q5_K_M", "Q6_K", "Q8_0"],
-                    value=["Q4_K", "Q8_0"],
                     label="Quantization Method"
                 )
                 hf_token = gr.Textbox(

     """
     os.makedirs("temp", exist_ok=True)
     log.info("Loading base model...")
+    model = AutoModelForCausalLM.from_pretrained(base_model_name, low_cpu_mem_usage=True, device_map="disk", trust_remote_code=True, offload_folder="temp")
     log.info("Loading adapter tokenizer...")
+    adapter_tokenizer = AutoTokenizer.from_pretrained(lora_model_name, trust_remote_code=True, device_map="disk", offload_folder="temp")
     log.info("Resizing token embeddings...")
     added_tokens_decoder = adapter_tokenizer.added_tokens_decoder
     model.resize_token_embeddings(adapter_tokenizer.vocab_size + len(added_tokens_decoder))
     log.info("Loading LoRA adapter...")
+    peft_model = PeftModel.from_pretrained(model, lora_model_name, low_cpu_mem_usage=True, device_map="disk", trust_remote_code=True, offload_folder="temp")
     log.info("Merging and unloading model...")
     model = peft_model.merge_and_unload()
     log.info("Saving model...")
                 )
                 quant_method = gr.CheckboxGroup(
                     choices=["Q2_K", "Q4_K", "IQ4_NL", "Q5_K_M", "Q6_K", "Q8_0"],
+                    value=["Q2_K", "Q4_K", "IQ4_NL", "Q5_K_M", "Q6_K", "Q8_0"],
                     label="Quantization Method"
                 )
                 hf_token = gr.Textbox(