Spaces:

AugustLight
/

LLight-3.2-3b-Instruct

Sleeping

App Files Files Community

AugustLight commited on Oct 26, 2024

Commit

7030ad8

verified ·

1 Parent(s): fd0bb7c

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -13

app.py CHANGED Viewed

@@ -1,9 +1,7 @@
 import gradio as gr
 from huggingface_hub import hf_hub_download
 from llama_cpp import Llama
-import os
-# Так надо
 model = None
 def load_model():
@@ -22,7 +20,7 @@ def load_model():
         model = Llama(
             model_path=model_path,
             n_ctx=2048,        # Размер контекста
-            n_threads=os.cpu_count(),       # Количество потоков
             n_batch=512        # Размер батча
         )
@@ -46,24 +44,27 @@ def respond(message, history, system_message, max_new_tokens, temperature, top_p
         print(f"Генерируем ответ для контекста длиной {len(context)} символов")
         response = model(
             prompt=context,
             max_tokens=max_new_tokens,
             temperature=temperature,
             top_p=top_p,
             stop=["User:", "\n\n", "<|endoftext|>"],
-            echo=False  # Не возвращать промпт в ответе
         )
-        generated_text = response['choices'][0]['text']
-        print(f"Ответ сгенерирован успешно, длина: {len(generated_text)}")
-        return generated_text.strip()
     except Exception as e:
         error_msg = f"Произошла ошибка: {str(e)}"
         print(error_msg)
-        return error_msg
 demo = gr.ChatInterface(
     respond,
@@ -94,14 +95,15 @@ demo = gr.ChatInterface(
             label="Top-p (nucleus sampling)"
         ),
     ],
-    title="GGUF Chat Model",
-    description="Чат с GGUF моделью (LLight-3.2-3B-Instruct)",
     examples=[
         ["Привет! Как дела?"],
         ["Расскажи мне о себе"],
         ["Что ты умеешь делать?"]
     ],
-    cache_examples=False
 )
 # Запускаем приложение
@@ -113,4 +115,4 @@ if __name__ == "__main__":
     except Exception as e:
         print(f"Ошибка при инициализации: {str(e)}")
-    demo.launch()

 import gradio as gr
 from huggingface_hub import hf_hub_download
 from llama_cpp import Llama
 model = None
 def load_model():
         model = Llama(
             model_path=model_path,
             n_ctx=2048,        # Размер контекста
+            n_threads=4,       # Количество потоков
             n_batch=512        # Размер батча
         )
         print(f"Генерируем ответ для контекста длиной {len(context)} символов")
+        # Используем потоковый вывод
         response = model(
             prompt=context,
             max_tokens=max_new_tokens,
             temperature=temperature,
             top_p=top_p,
             stop=["User:", "\n\n", "<|endoftext|>"],
+            echo=False,
+            stream=True  # Включаем потоковое отображение
         )
+        # Генерация ответа с использованием yield
+        generated_text = ""
+        for token in response:
+            generated_text += token["text"]
+            yield generated_text.strip()
     except Exception as e:
         error_msg = f"Произошла ошибка: {str(e)}"
         print(error_msg)
+        yield error_msg
 demo = gr.ChatInterface(
     respond,
             label="Top-p (nucleus sampling)"
         ),
     ],
+    title="LLight Chat Model",
+    description="Чат с LLight-3.2-3B-Instruct",
     examples=[
         ["Привет! Как дела?"],
         ["Расскажи мне о себе"],
         ["Что ты умеешь делать?"]
     ],
+    cache_examples=False,
+    streaming=True  # Включаем потоковый вывод в интерфейсе Gradio
 )
 # Запускаем приложение
     except Exception as e:
         print(f"Ошибка при инициализации: {str(e)}")
+    demo.launch()