Spaces:

AugustLight
/

LLight-3.2-3b-Instruct

Sleeping

File size: 4,946 Bytes

68300d0
8cbfc7e
1275349
 
fe67270
cb249bf
fe67270
68300d0
464f8f9
fe67270
78ac0ef
4c2e13f
78ac0ef
4c2e13f
 
 
 
 
 
 
78ac0ef
1275349
 
cb249bf
 
 
 
 
78ac0ef
1275349
4c2e13f
78ac0ef
 
 
 
 
464f8f9
fe67270
464f8f9
78ac0ef
fe67270
78ac0ef
 
cb249bf
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
fe67270
464f8f9
78ac0ef
 
 
464f8f9
cb249bf
fe67270
 
 
 
9f5efd5
fe67270
 
 
 
cb249bf
 
fe67270
 
 
 
 
78ac0ef
437bce8
fe67270
 
 
 
 
 
 
1275349
fe67270
 
 
cb249bf
 
eff9ab5
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
cb249bf
68300d0
 
464f8f9
68300d0
78ac0ef
 
cb249bf
78ac0ef
 
 
 
de3d994

import gradio as gr
from huggingface_hub import hf_hub_download
from llama_cpp import Llama
import os

# Global model instance
model = None

def load_model():
    global model
    try:
        print("Начинаем загрузку модели из Hub...")
        
        model_path = hf_hub_download(
            repo_id="AugustLight/LLight-3.2-3B-Instruct",
            filename="Llight.Q8_0.gguf",
            repo_type="model"
        )
        
        print(f"Модель загружена в: {model_path}")
        
        model = Llama(
            model_path=model_path,
            n_ctx=512,
            n_threads=os.cpu_count(),
            n_batch=128, 
            n_gpu_layers=0,  
            embedding_cache_size=1024
        )
        
        print("Модель успешно инициализирована!")
        return model
        
    except Exception as e:
        print(f"Подробная ошибка при загрузке модели: {str(e)}")
        raise e

def respond(message, history, system_message, max_new_tokens, temperature, top_p):
    try:
        global model
        if model is None:
            model = load_model()
        
        with gr.Progress() as progress:
            progress(0, desc="Подготовка контекста...")
            
            # Ограничиваем историю последними 3 сообщениями
            recent_history = history[-3:] if len(history) > 3 else history
            
            context = f"{system_message}\n\n"
            for user_msg, assistant_msg in recent_history:
                context += f"User: {user_msg}\nAssistant: {assistant_msg}\n"
            context += f"User: {message}\nAssistant: "
            
            print(f"Генерируем ответ для контекста длиной {len(context)} символов")
            
            progress(0.3, desc="Генерация ответа...")
            response = model(
                prompt=context,
                max_tokens=max_new_tokens,
                temperature=temperature,
                top_p=top_p,
                stop=["User:", "\n\n", "<|endoftext|>"],
                echo=False
            )
            
            progress(1, desc="Готово!")
            generated_text = response['choices'][0]['text']
            print(f"Ответ сгенерирован успешно, длина: {len(generated_text)}")
            return generated_text.strip()
        
    except Exception as e:
        error_msg = f"Произошла ошибка: {str(e)}"
        print(error_msg)
        return error_msg

# Создаем интерфейс с оптимизированными параметрами
demo = gr.ChatInterface(
    respond,
    additional_inputs=[
        gr.Textbox(
            value="Ты дружелюбный и полезный ассистент. Отвечай обдуманно и по делу.", 
            label="System message"
        ),
        gr.Slider(
            minimum=1, 
            maximum=512,
            value=128,
            step=1, 
            label="Max new tokens"
        ),
        gr.Slider(
            minimum=0.1, 
            maximum=2.0, 
            value=0.3, 
            step=0.1, 
            label="Temperature"
        ),
        gr.Slider(
            minimum=0.1,
            maximum=1.0,
            value=0.95,
            step=0.05, 
            label="Top-p (nucleus sampling)"
        ),
    ],
    title="LLight Chat Model (Optimized)",
    description="Оптимизированный чат с LLight-3.2-3B",
    examples = [
        ["Привет! Как дела?", 
         "Ты дружелюбный и полезный ассистент. Отвечай обдуманно и по делу.",  # system_message
         128,    # max_new_tokens
         0.3,    # temperature
         0.95    # top_p
        ],
        ["Расскажи мне о себе",
         "Ты дружелюбный и полезный ассистент. Отвечай обдуманно и по делу.",
         128,
         0.3,
         0.95
        ],
        ["Что ты умеешь делать?",
         "Ты дружелюбный и полезный ассистент. Отвечай обдуманно и по делу.",
         128,
         0.3,
         0.95
        ]
    ]
    cache_examples=True  # Включаем кэширование примеров
)

# Запускаем приложение
if __name__ == "__main__":
    try:
        print("Инициализация приложения...")
        model = load_model()  # Предзагружаем модель
        print("Модель загружена успешно при старте")
    except Exception as e:
        print(f"Ошибка при инициализации: {str(e)}")
    
    demo.launch()