Spaces:

DawnC
/

VisionScout

Running on Zero

App Files Files Community

DawnC commited on Jun 11

Commit

d217fb0

verified ·

1 Parent(s): 91e463e

Upload llm_model_manager.py

Browse files

Files changed (1) hide show

llm_model_manager.py +83 -35

llm_model_manager.py CHANGED Viewed

@@ -2,6 +2,7 @@ import os
 import re
 import torch
 import logging
 from typing import Dict, Optional, Any
 from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
 from huggingface_hub import login
@@ -20,7 +21,22 @@ class LLMModelManager:
     """
     負責LLM模型的載入、設備管理和文本生成。
     管理模型、記憶體優化和設備配置。
     """
     def __init__(self,
                  model_path: Optional[str] = None,
@@ -30,7 +46,7 @@ class LLMModelManager:
                  temperature: float = 0.3,
                  top_p: float = 0.85):
         """
-        初始化模型管理器
         Args:
             model_path: LLM模型的路徑或HuggingFace模型名稱，默認使用Llama 3.2
@@ -40,36 +56,48 @@ class LLMModelManager:
             temperature: 生成文本的溫度參數
             top_p: 生成文本時的核心採樣機率閾值
         """
-        # 設置專屬logger
-        self.logger = logging.getLogger(self.__class__.__name__)
-        if not self.logger.handlers:
-            handler = logging.StreamHandler()
-            formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')
-            handler.setFormatter(formatter)
-            self.logger.addHandler(handler)
-            self.logger.setLevel(logging.INFO)
-        # 模型配置
-        self.model_path = model_path or "meta-llama/Llama-3.2-3B-Instruct"
-        self.tokenizer_path = tokenizer_path or self.model_path
-        # 設備管理
-        self.device = self._detect_device(device)
-        self.logger.info(f"Device selected: {self.device}")
-        # 生成參數
-        self.max_length = max_length
-        self.temperature = temperature
-        self.top_p = top_p
-        # 模型狀態
-        self.model = None
-        self.tokenizer = None
-        self._model_loaded = False
-        self.call_count = 0
-        # HuggingFace認證
-        self.hf_token = self._setup_huggingface_auth()
     def _detect_device(self, device: Optional[str]) -> str:
         """
@@ -119,11 +147,16 @@ class LLMModelManager:
     def _load_model(self):
         """
         載入LLM模型和tokenizer，使用8位量化以節省記憶體
         Raises:
             ModelLoadingError: 當模型載入失敗時
         """
-        if self._model_loaded:
             return
         try:
@@ -160,7 +193,7 @@ class LLMModelManager:
             )
             self._model_loaded = True
-            self.logger.info("Model loaded successfully")
         except Exception as e:
             error_msg = f"Failed to load model: {str(e)}"
@@ -331,7 +364,7 @@ class LLMModelManager:
         """重置模型上下文，清理GPU緩存"""
         if self._model_loaded:
             self._clear_gpu_cache()
-            self.logger.info("Model context reset")
         else:
             self.logger.info("Model not loaded, no context to reset")
@@ -374,5 +407,20 @@ class LLMModelManager:
             "device": self.device,
             "is_loaded": self._model_loaded,
             "call_count": self.call_count,
-            "has_hf_token": self.hf_token is not None
         }

 import re
 import torch
 import logging
+import threading
 from typing import Dict, Optional, Any
 from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
 from huggingface_hub import login
     """
     負責LLM模型的載入、設備管理和文本生成。
     管理模型、記憶體優化和設備配置。
+    實現單例模式確保全應用程式只有一個模型載入方式。
     """
+    _instance = None
+    _initialized = False
+    _lock = threading.Lock()
+    def __new__(cls, *args, **kwargs):
+        """
+        單例模式實現：確保整個應用程式只創建一個 LLMModelManager
+        """
+        if cls._instance is None:
+            with cls._lock:
+                if cls._instance is None:
+                    cls._instance = super(LLMModelManager, cls).__new__(cls)
+        return cls._instance
     def __init__(self,
                  model_path: Optional[str] = None,
                  temperature: float = 0.3,
                  top_p: float = 0.85):
         """
+        初始化模型管理器（只在第一次創建實例時執行）
         Args:
             model_path: LLM模型的路徑或HuggingFace模型名稱，默認使用Llama 3.2
             temperature: 生成文本的溫度參數
             top_p: 生成文本時的核心採樣機率閾值
         """
+        # 避免重複初始化
+        if self._initialized:
+            return
+        with self._lock:
+            if self._initialized:
+                return
+            # set logger
+            self.logger = logging.getLogger(self.__class__.__name__)
+            if not self.logger.handlers:
+                handler = logging.StreamHandler()
+                formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')
+                handler.setFormatter(formatter)
+                self.logger.addHandler(handler)
+                self.logger.setLevel(logging.INFO)
+            # model config
+            self.model_path = model_path or "meta-llama/Llama-3.2-3B-Instruct"
+            self.tokenizer_path = tokenizer_path or self.model_path
+            # device management
+            self.device = self._detect_device(device)
+            self.logger.info(f"Device selected: {self.device}")
+            # 生成參數
+            self.max_length = max_length
+            self.temperature = temperature
+            self.top_p = top_p
+            # 模型狀態
+            self.model = None
+            self.tokenizer = None
+            self._model_loaded = False
+            self.call_count = 0
+            # HuggingFace認證
+            self.hf_token = self._setup_huggingface_auth()
+            # 標記為已初始化
+            self._initialized = True
+            self.logger.info("LLMModelManager singleton initialized")
     def _detect_device(self, device: Optional[str]) -> str:
         """
     def _load_model(self):
         """
         載入LLM模型和tokenizer，使用8位量化以節省記憶體
+        增強的狀態檢查確保模型只載入一次
         Raises:
             ModelLoadingError: 當模型載入失敗時
         """
+        # 完整的模型狀態檢查
+        if (self._model_loaded and
+            hasattr(self, 'model') and self.model is not None and
+            hasattr(self, 'tokenizer') and self.tokenizer is not None):
+            self.logger.info("Model already loaded, skipping reload")
             return
         try:
             )
             self._model_loaded = True
+            self.logger.info("Model loaded successfully (singleton instance)")
         except Exception as e:
             error_msg = f"Failed to load model: {str(e)}"
         """重置模型上下文，清理GPU緩存"""
         if self._model_loaded:
             self._clear_gpu_cache()
+            self.logger.info("Model context reset (singleton instance)")
         else:
             self.logger.info("Model not loaded, no context to reset")
             "device": self.device,
             "is_loaded": self._model_loaded,
             "call_count": self.call_count,
+            "has_hf_token": self.hf_token is not None,
+            "is_singleton": True
         }
+    @classmethod
+    def reset_singleton(cls):
+        """
+        重置單例實例（僅用於測試或應用程式重啟）
+        注意：這會導致模型需要重新載入
+        """
+        with cls._lock:
+            if cls._instance is not None:
+                instance = cls._instance
+                if hasattr(instance, 'logger'):
+                    instance.logger.info("Resetting singleton instance")
+                cls._instance = None
+                cls._initialized = False