Spaces:

mamkkl
/

demo1

Paused

mamkkl commited on Jan 9

Commit

80a34b8

verified ·

1 Parent(s): 431e23c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -73,21 +73,20 @@ def loadModel():
     if model is None:
         from llama_rope_scaled_monkey_patch import replace_llama_rope_with_scaled_rope
         replace_llama_rope_with_scaled_rope()
-        t_model = transformers.AutoModelForCausalLM.from_pretrained(
                     base_model,
                     torch_dtype=torch.float16,
                     cache_dir=cache_dir,
                     device_map="auto",
                 )
         model = PeftModel.from_pretrained(
-                    t_model,
                     lora_weights,
                     device_map="auto",
                     cache_dir='',
                     torch_dtype=torch.float16,
                     is_trainable=False,
                 )
-        model.eval()
         tokenizer =  AutoTokenizer.from_pretrained(base_model,use_fast=False,cache_dir=cache_dir)
         tokenizer.pad_token = tokenizer.unk_token
         model = model.to("cuda")

     if model is None:
         from llama_rope_scaled_monkey_patch import replace_llama_rope_with_scaled_rope
         replace_llama_rope_with_scaled_rope()
+        model = transformers.AutoModelForCausalLM.from_pretrained(
                     base_model,
                     torch_dtype=torch.float16,
                     cache_dir=cache_dir,
                     device_map="auto",
                 )
         model = PeftModel.from_pretrained(
+                    model,
                     lora_weights,
                     device_map="auto",
                     cache_dir='',
                     torch_dtype=torch.float16,
                     is_trainable=False,
                 )
         tokenizer =  AutoTokenizer.from_pretrained(base_model,use_fast=False,cache_dir=cache_dir)
         tokenizer.pad_token = tokenizer.unk_token
         model = model.to("cuda")