Spaces:

AugustLight
/

LLight-3.2-3b-Instruct

Sleeping

App Files Files Community

AugustLight commited on Oct 26, 2024

Commit

1275349

verified ·

1 Parent(s): d4695f2

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -19

app.py CHANGED Viewed

@@ -1,9 +1,9 @@
 import gradio as gr
-from ctransformers import AutoModelForCausalLM
-import os
 from huggingface_hub import hf_hub_download
-# Глобальная переменная для модели
 model = None
 def load_model():
@@ -20,14 +20,14 @@ def load_model():
         print(f"Модель загружена в: {model_path}")
-        # Инициализируем модель
-        model = AutoModelForCausalLM.from_pretrained(
-            model_path,
-            model_type="llama",
-            context_length=2048,
-            gpu_layers=0,
-            threads=4
         )
         print("Модель успешно инициализирована!")
         return model
@@ -49,24 +49,26 @@ def respond(message, history, system_message, max_new_tokens, temperature, top_p
         print(f"Генерируем ответ для контекста длиной {len(context)} символов")
-        # Генерируем ответ
         response = model(
-            context,
             max_tokens=max_new_tokens,
             temperature=temperature,
             top_p=top_p,
-            stop=["User:", "\n\n", "<|endoftext|>"]
         )
-        print(f"Ответ сгенерирован успешно, длина: {len(response)}")
-        return response.strip()
     except Exception as e:
         error_msg = f"Произошла ошибка: {str(e)}"
         print(error_msg)
         return error_msg
-# Создаем интерфейс
 demo = gr.ChatInterface(
     respond,
     additional_inputs=[
@@ -92,12 +94,12 @@ demo = gr.ChatInterface(
             minimum=0.1,
             maximum=1.0,
             value=0.95,
-            step=0.05,
             label="Top-p (nucleus sampling)"
         ),
     ],
     title="GGUF Chat Model",
-    description="Чат с GGUF моделью (Llight.Q8_0.gguf)",
     examples=[
         ["Привет! Как дела?"],
         ["Расскажи мне о себе"],
@@ -108,7 +110,6 @@ demo = gr.ChatInterface(
 # Запускаем приложение
 if __name__ == "__main__":
-    # Пробуем загрузить модель при запуске
     try:
         print("Инициализация приложения...")
         model = load_model()

 import gradio as gr
 from huggingface_hub import hf_hub_download
+from llama_cpp import Llama
+import os
+# Так надо
 model = None
 def load_model():
         print(f"Модель загружена в: {model_path}")
+        # Инициализируем модель через llama-cpp
+        model = Llama(
+            model_path=model_path,
+            n_ctx=2048,        # Размер контекста
+            n_threads=4,       # Количество потоков
+            n_batch=512        # Размер батча
         )
         print("Модель успешно инициализирована!")
         return model
         print(f"Генерируем ответ для контекста длиной {len(context)} символов")
+        # Генерируем ответ используя llama-cpp
         response = model(
+            prompt=context,
             max_tokens=max_new_tokens,
             temperature=temperature,
             top_p=top_p,
+            stop=["User:", "\n\n", "<|endoftext|>"],
+            echo=False  # Не возвращать промпт в ответе
         )
+        generated_text = response['choices'][0]['text']
+        print(f"Ответ сгенерирован успешно, длина: {len(generated_text)}")
+        return generated_text.strip()
     except Exception as e:
         error_msg = f"Произошла ошибка: {str(e)}"
         print(error_msg)
         return error_msg
 demo = gr.ChatInterface(
     respond,
     additional_inputs=[
             minimum=0.1,
             maximum=1.0,
             value=0.95,
+            step=0.05,
             label="Top-p (nucleus sampling)"
         ),
     ],
     title="GGUF Chat Model",
+    description="Чат с GGUF моделью (LLight-3.2-3B-Instruct)",
     examples=[
         ["Привет! Как дела?"],
         ["Расскажи мне о себе"],
 # Запускаем приложение
 if __name__ == "__main__":
     try:
         print("Инициализация приложения...")
         model = load_model()