Spaces:

hfl-rc
/

llama-3-chinese-8b-instruct-demo

Build error

hfl-rc commited on Nov 29, 2024

Commit

802ccb7

verified ·

1 Parent(s): ff72155

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,7 +4,7 @@ import gradio as gr
 import spaces
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 import subprocess
-subprocess.run('pip install flash-attn --no-build-isolation', env={'FLASH_ATTENTION_SKIP_CUDA_BUILD': "TRUE"}, shell=True)
 BANNER_HTML = """
 <p align="center">
@@ -37,7 +37,7 @@ def load_model(version):
     model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto", attn_implementation="flash_attention_2")
     return f"Model {model_name} loaded."
-@spaces.GPU(duration=50)
 def stream_chat(message: str, history: list, system_prompt: str, model_version: str, temperature: float, max_new_tokens: int):
     conversation = [{"role": "system", "content": system_prompt or DEFAULT_SYSTEM_PROMPT}]
     for prompt, answer in history:

 import spaces
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 import subprocess
+#subprocess.run('pip install flash-attn --no-build-isolation', env={'FLASH_ATTENTION_SKIP_CUDA_BUILD': "TRUE"}, shell=True)
 BANNER_HTML = """
 <p align="center">
     model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto", attn_implementation="flash_attention_2")
     return f"Model {model_name} loaded."
+@spaces.GPU(duration=60)
 def stream_chat(message: str, history: list, system_prompt: str, model_version: str, temperature: float, max_new_tokens: int):
     conversation = [{"role": "system", "content": system_prompt or DEFAULT_SYSTEM_PROMPT}]
     for prompt, answer in history: