Spaces:

Uhhy
/

text123

Runtime error

App Files Files Community

Uhhy commited on Sep 1, 2024

Commit

a98609e

verified ·

1 Parent(s): cb57b05

Update app.py

Browse files

Files changed (1) hide show

app.py +2 -15

app.py CHANGED Viewed

@@ -15,26 +15,20 @@ from cachetools import TTLCache
 from multiprocessing import cpu_count
 import queue
-# Configuración de logging para suprimir mensajes de depuración innecesarios
 logging.basicConfig(level=logging.ERROR)
-# Cargar variables de entorno
 load_dotenv()
-# Inicializar aplicación FastAPI
 app = FastAPI()
-# Configuración de la caché
 cache_size = 2000
 cache_ttl = 7200
 cache = TTLCache(maxsize=cache_size, ttl=cache_ttl)
-# Diccionario global para almacenar los modelos en RAM
 global_data = {
     'models': {}
 }
-# Configuración de los modelos
 model_configs = [
     {"repo_id": "Ffftdtd5dtft/gpt2-xl-Q2_K-GGUF", "filename": "gpt2-xl-q2_k.gguf", "name": "GPT-2 XL"},
     {"repo_id": "Ffftdtd5dtft/Meta-Llama-3.1-8B-Instruct-Q2_K-GGUF", "filename": "meta-llama-3.1-8b-instruct-q2_k.gguf", "name": "Meta Llama 3.1-8B Instruct"},
@@ -47,7 +41,6 @@ model_configs = [
     {"repo_id": "Ffftdtd5dtft/Qwen2-1.5B-Instruct-Q2_K-GGUF", "filename": "qwen2-1.5b-instruct-q2_k.gguf", "name": "Qwen2 1.5B Instruct"}
 ]
-# Clase para gestionar modelos
 class ModelManager:
     def __init__(self):
         self.models = {}
@@ -68,19 +61,16 @@ class ModelManager:
                 future.result()
         return self.models
-# Instanciar ModelManager y cargar modelos
 model_manager = ModelManager()
 model_manager.load_all_models()
 global_data['models'] = model_manager.models
-# Clase para la solicitud de chat
 class ChatRequest(BaseModel):
     message: str
     top_k: int = 50
     top_p: float = 0.95
     temperature: float = 0.7
-# Función para generar respuestas de chat
 @lru_cache(maxsize=20000)
 def generate_chat_response(request: ChatRequest, model_name: str):
     cache_key = f"{request.message}_{model_name}"
@@ -102,7 +92,6 @@ def generate_chat_response(request: ChatRequest, model_name: str):
         )
         reply = response['choices'][0]['message']['content']
-        # Almacenar en caché la respuesta
         cache[cache_key] = {"response": reply, "literal": user_input, "model_name": model_name}
         return cache[cache_key]
@@ -185,14 +174,12 @@ async def generate_chat(request: ChatRequest):
         "all_responses": responses
     }
-# Cargar los modelos en la memoria RAM de manera más eficiente
 def pre_load_models():
     for model_name, model in global_data['models'].items():
-        model._load_model()  # Método hipotético para pre-cargar modelos en RAM
 pre_load_models()
-# Optimización de la carga de modelos en lotes
 def batch_load_models(model_configs):
     for i in range(0, len(model_configs), cpu_count()):
         batch = model_configs[i:i + cpu_count()]
@@ -200,4 +187,4 @@ def batch_load_models(model_configs):
             model_manager.load_model(config)
 if __name__ == "__main__":
-    uvicorn.run(app, host="0.0.0.0", port=7860)

 from multiprocessing import cpu_count
 import queue
 logging.basicConfig(level=logging.ERROR)
 load_dotenv()
 app = FastAPI()
 cache_size = 2000
 cache_ttl = 7200
 cache = TTLCache(maxsize=cache_size, ttl=cache_ttl)
 global_data = {
     'models': {}
 }
 model_configs = [
     {"repo_id": "Ffftdtd5dtft/gpt2-xl-Q2_K-GGUF", "filename": "gpt2-xl-q2_k.gguf", "name": "GPT-2 XL"},
     {"repo_id": "Ffftdtd5dtft/Meta-Llama-3.1-8B-Instruct-Q2_K-GGUF", "filename": "meta-llama-3.1-8b-instruct-q2_k.gguf", "name": "Meta Llama 3.1-8B Instruct"},
     {"repo_id": "Ffftdtd5dtft/Qwen2-1.5B-Instruct-Q2_K-GGUF", "filename": "qwen2-1.5b-instruct-q2_k.gguf", "name": "Qwen2 1.5B Instruct"}
 ]
 class ModelManager:
     def __init__(self):
         self.models = {}
                 future.result()
         return self.models
 model_manager = ModelManager()
 model_manager.load_all_models()
 global_data['models'] = model_manager.models
 class ChatRequest(BaseModel):
     message: str
     top_k: int = 50
     top_p: float = 0.95
     temperature: float = 0.7
 @lru_cache(maxsize=20000)
 def generate_chat_response(request: ChatRequest, model_name: str):
     cache_key = f"{request.message}_{model_name}"
         )
         reply = response['choices'][0]['message']['content']
         cache[cache_key] = {"response": reply, "literal": user_input, "model_name": model_name}
         return cache[cache_key]
         "all_responses": responses
     }
 def pre_load_models():
     for model_name, model in global_data['models'].items():
+        model._load_model()
 pre_load_models()
 def batch_load_models(model_configs):
     for i in range(0, len(model_configs), cpu_count()):
         batch = model_configs[i:i + cpu_count()]
             model_manager.load_model(config)
 if __name__ == "__main__":
+    uvicorn.run(app, host="0.0.0.0", port=8000)