Spaces:

UcsTurkey
/

flare

Running

App Files Files Community

ciyidogan commited on May 27

Commit

edc8519

verified ·

1 Parent(s): 12da146

Update llm_model.py

Browse files

Files changed (1) hide show

llm_model.py +5 -36

llm_model.py CHANGED Viewed

@@ -11,14 +11,10 @@ class Message(BaseModel):
 class LLMModel:
     def __init__(self):
-        self.model = None  # ana model
         self.tokenizer = None
         self.eos_token_id = None
-        self.intent_model = None  # intent modeli
-        self.intent_tokenizer = None
-        self.intent_label2id = None
     def setup(self, s_config, project_config, project_path):
         try:
             log("🧠 LLMModel setup() başladı")
@@ -32,12 +28,10 @@ class LLMModel:
                 log(f"📦 Hugging Face cloud modeli yükleniyor: {model_base}")
                 self.tokenizer = AutoTokenizer.from_pretrained(model_base, token=token, use_fast=False)
                 self.model = AutoModelForCausalLM.from_pretrained(model_base, token=token, torch_dtype=torch.float32).to(device)
-            elif s_config.work_mode in ["cloud", "on-prem"]:
                 log(f"📦 Model indiriliyor veya yükleniyor: {model_base}")
                 self.tokenizer = AutoTokenizer.from_pretrained(model_base, use_fast=False)
                 self.model = AutoModelForCausalLM.from_pretrained(model_base, torch_dtype=torch.float32).to(device)
-            else:
-                raise Exception(f"Bilinmeyen work_mode: {s_config.work_mode}")
             self.tokenizer.pad_token = self.tokenizer.pad_token or self.tokenizer.eos_token
             self.model.config.pad_token_id = self.tokenizer.pad_token_id
@@ -49,20 +43,7 @@ class LLMModel:
             log(f"❌ LLMModel setup() hatası: {e}")
             traceback.print_exc()
-    def load_intent_model(self, model_path):
-        try:
-            log(f"🔧 Intent modeli yükleniyor: {model_path}")
-            self.intent_tokenizer = AutoTokenizer.from_pretrained(model_path)
-            self.intent_model = AutoModelForSequenceClassification.from_pretrained(model_path)
-            with open(os.path.join(model_path, "label2id.json")) as f:
-                self.intent_label2id = json.load(f)
-            log("✅ Intent modeli yüklemesi tamamlandı.")
-        except Exception as e:
-            log(f"❌ Intent modeli yükleme hatası: {e}")
-            traceback.print_exc()
-    async def generate_response(self, text, project_config):
-        messages = [{"role": "user", "content": text}]
         encodeds = self.tokenizer.apply_chat_template(messages, return_tensors="pt", add_generation_prompt=True)
         input_ids = encodeds.to(self.model.device)
         attention_mask = (input_ids != self.tokenizer.pad_token_id).long()
@@ -71,7 +52,7 @@ class LLMModel:
             output = self.model.generate(
                 input_ids=input_ids,
                 attention_mask=attention_mask,
-                max_new_tokens=128,
                 do_sample=project_config["use_sampling"],
                 eos_token_id=self.eos_token_id,
                 pad_token_id=self.tokenizer.pad_token_id,
@@ -79,17 +60,5 @@ class LLMModel:
                 output_scores=True
             )
-        if not project_config["use_sampling"]:
-            scores = torch.stack(output.scores, dim=1)
-            probs = torch.nn.functional.softmax(scores[0], dim=-1)
-            top_conf = probs.max().item()
-        else:
-            top_conf = None
         decoded = self.tokenizer.decode(output.sequences[0], skip_special_tokens=True).strip()
-        for tag in ["assistant", "<|im_start|>assistant"]:
-            start = decoded.find(tag)
-            if start != -1:
-                decoded = decoded[start + len(tag):].strip()
-                break
-        return decoded, top_conf

 class LLMModel:
     def __init__(self):
+        self.model = None
         self.tokenizer = None
         self.eos_token_id = None
     def setup(self, s_config, project_config, project_path):
         try:
             log("🧠 LLMModel setup() başladı")
                 log(f"📦 Hugging Face cloud modeli yükleniyor: {model_base}")
                 self.tokenizer = AutoTokenizer.from_pretrained(model_base, token=token, use_fast=False)
                 self.model = AutoModelForCausalLM.from_pretrained(model_base, token=token, torch_dtype=torch.float32).to(device)
+            else:
                 log(f"📦 Model indiriliyor veya yükleniyor: {model_base}")
                 self.tokenizer = AutoTokenizer.from_pretrained(model_base, use_fast=False)
                 self.model = AutoModelForCausalLM.from_pretrained(model_base, torch_dtype=torch.float32).to(device)
             self.tokenizer.pad_token = self.tokenizer.pad_token or self.tokenizer.eos_token
             self.model.config.pad_token_id = self.tokenizer.pad_token_id
             log(f"❌ LLMModel setup() hatası: {e}")
             traceback.print_exc()
+    async def generate_response_with_messages(self, messages, project_config):
         encodeds = self.tokenizer.apply_chat_template(messages, return_tensors="pt", add_generation_prompt=True)
         input_ids = encodeds.to(self.model.device)
         attention_mask = (input_ids != self.tokenizer.pad_token_id).long()
             output = self.model.generate(
                 input_ids=input_ids,
                 attention_mask=attention_mask,
+                max_new_tokens=256,
                 do_sample=project_config["use_sampling"],
                 eos_token_id=self.eos_token_id,
                 pad_token_id=self.tokenizer.pad_token_id,
                 output_scores=True
             )
         decoded = self.tokenizer.decode(output.sequences[0], skip_special_tokens=True).strip()
+        return decoded