Spaces:

Uhhy
/

text123

Runtime error

App Files Files Community

Uhhy commited on Sep 1, 2024

Commit

6f52053

verified ·

1 Parent(s): 0b58d90

Update app.py

Browse files

Files changed (1) hide show

app.py +5 -48

app.py CHANGED Viewed

@@ -13,7 +13,6 @@ import numpy as np
 from functools import lru_cache
 from cachetools import TTLCache
 from multiprocessing import cpu_count
-import threading
 import queue
 # Configuración de logging para suprimir mensajes de depuración innecesarios
@@ -194,53 +193,11 @@ def pre_load_models():
 pre_load_models()
 # Optimización de la carga de modelos en lotes
-def optimize_model_loading():
-    # Implementar carga de modelos en lotes con manejo eficiente de recursos
-    batch_size = min(len(model_configs), cpu_count() * 2)
-    for i in range(0, len(model_configs), batch_size):
-        batch_configs = model_configs[i:i + batch_size]
-        with ThreadPoolExecutor(max_workers=batch_size) as executor:
-            futures = [executor.submit(model_manager.load_model, config) for config in batch_configs]
-            for future in tqdm(as_completed(futures), total=len(batch_configs), desc="Optimizando carga de modelos", unit="modelo"):
-                try:
-                    model = future.result()
-                    global_data['models'][batch_configs[futures.index(future)]['name']] = model
-                except Exception as e:
-                    logging.error(f"Error al optimizar la carga del modelo: {e}")
-optimize_model_loading()
-# Implementar técnicas de paralelización en la generación de respuestas
-def parallelize_response_generation(request: ChatRequest):
-    response_queue = queue.Queue()
-    with ThreadPoolExecutor(max_workers=min(len(global_data['models']), cpu_count())) as executor:
-        futures = [executor.submit(worker_function, model_name, request, response_queue) for model_name in global_data['models']]
-        for future in tqdm(as_completed(futures), total=len(futures), desc="Generando respuestas en paralelo", unit="modelo"):
-            future.result()
-    responses = []
-    while not response_queue.empty():
-        responses.append(response_queue.get())
-    return responses
-@app.post("/generate_chat_parallel")
-async def generate_chat_parallel(request: ChatRequest):
-    if not request.message.strip():
-        raise HTTPException(status_code=400, detail="The message cannot be empty.")
-    responses = parallelize_response_generation(request)
-    best_response = select_best_response(responses)
-    return {
-        "best_response": best_response,
-        "all_responses": responses
-    }
-# Optimizar el uso de memoria
-def optimize_memory_usage():
-    import gc
-    gc.collect()
-# Ejecutar el servidor FastAPI
 if __name__ == "__main__":
     uvicorn.run(app, host="0.0.0.0", port=8000)

 from functools import lru_cache
 from cachetools import TTLCache
 from multiprocessing import cpu_count
 import queue
 # Configuración de logging para suprimir mensajes de depuración innecesarios
 pre_load_models()
 # Optimización de la carga de modelos en lotes
+def batch_load_models(model_configs):
+    for i in range(0, len(model_configs), cpu_count()):
+        batch = model_configs[i:i + cpu_count()]
+        for config in batch:
+            model_manager.load_model(config)
 if __name__ == "__main__":
     uvicorn.run(app, host="0.0.0.0", port=8000)