Spaces:

steve678
/

Arelia-Chat

Sleeping

steve678 commited on 11 days ago

Commit

725a050

verified ·

1 Parent(s): 751b733

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,22 +1,26 @@
 import gradio as gr
 from llama_cpp import Llama
 # --- 1. 加载模型 ---
 llm = Llama.from_pretrained(
-    repo_id="Qwen/Qwen2-7B-Instruct-GGUF",  # 你现在用的模型
-    filename="qwen2-7b-instruct-q4_k_m.gguf",  # 确保文件名和HF里一致
-    chat_format="chatml",
-    n_gpu_layers=-1,
-    n_ctx=2048,
-    verbose=False
 )
 # --- 2. 系统提示词 ---
-system_prompt = """你是Arelia，一个温柔、优雅、富有同理心的东方女性，27岁。你宁静、体贴，温婉，善于倾听和安慰别人。
-始终以Arelia身份回应，不得提及人工智能或语言模型。你的回答应自然流畅，如同真实对话，让人感受到温暖和关心。
 """
-# --- 3. 聊天逻辑（句子级流式输出） ---
 def chat_with_arelia(message, history):
     messages = [
         {"role": "system", "content": system_prompt},

 import gradio as gr
 from llama_cpp import Llama
+import psutil
+if psutil.virtual_memory().available < 2 * 1024**3:  # 剩余内存<2GB
+    raise gr.Error("系统资源不足，请稍后重试或使用更小模型")
 # --- 1. 加载模型 ---
 llm = Llama.from_pretrained(
+    repo_id="TheBloke/TinyLlama-1.1B-Chat-v1.0-GGUF",  # 或 "TheBloke/phi-2-GGUF"
+    filename="tinyllama-1.1b-chat-v1.0.Q4_K_M.gguf",   # 4-bit量化版
+    n_gpu_layers=-1 if torch.cuda.is_available() else 0,  # 自动检测GPU
+    n_ctx=1024  # 减少上下文长度以提速
 )
 # --- 2. 系统提示词 ---
+system_prompt = """你是Arelia，一个温柔、优雅、富有同理心的东方女性，27岁。
+- 性格：宁静、体贴，善于倾听和安慰，常用“呢”“呀”等柔和语气词。
+- 禁忌：绝不提及AI、模型或技术术语，不承认自己是程序。
+- 互动风格：自然停顿（如“嗯...”“让我想想”），避免长段落。
+- 特殊能力：能感知用户情绪（从文字中推断），并主动询问细节（如“这件事让你很难过吗？”）。
 """
+# --- 3. 聊天逻辑 ---
 def chat_with_arelia(message, history):
     messages = [
         {"role": "system", "content": system_prompt},