oleksandrfluxon
/

mpt-7b-chat-4bit

@@ -3,11 +3,13 @@ import transformers
 from typing import Dict, List, Any
 class PreTrainedPipeline():
-    def __init__(self, path="oleksandrfluxon/mpt-7b-chat-4bit"):
         print("===> path", path)
         config = transformers.AutoConfig.from_pretrained(path, trust_remote_code=True)
         config.max_seq_len = 4096 # (input + output) tokens can now be up to 4096
         model = transformers.AutoModelForCausalLM.from_pretrained(
           path,
           config=config,
@@ -15,10 +17,12 @@ class PreTrainedPipeline():
           trust_remote_code=True,
           load_in_4bit=True, # Load model in the lowest 4-bit precision quantization
         )
         tokenizer = transformers.AutoTokenizer.from_pretrained('EleutherAI/gpt-neox-20b', padding_side="left", device_map="auto")
         self.pipeline = transformers.pipeline('text-generation', model=model, tokenizer=tokenizer)
     def __call__(self, data: Dict[str, Any]) -> List[Dict[str, Any]]:
         """
@@ -36,5 +40,6 @@ class PreTrainedPipeline():
         print("===> inputs", parameters)
         result = self.pipeline(inputs, **parameters)
         return result

 from typing import Dict, List, Any
 class PreTrainedPipeline():
+    def __init__(self, path=""):
+        path = "oleksandrfluxon/mpt-7b-chat-4bit"
         print("===> path", path)
         config = transformers.AutoConfig.from_pretrained(path, trust_remote_code=True)
         config.max_seq_len = 4096 # (input + output) tokens can now be up to 4096
+        print("===> loading model")
         model = transformers.AutoModelForCausalLM.from_pretrained(
           path,
           config=config,
           trust_remote_code=True,
           load_in_4bit=True, # Load model in the lowest 4-bit precision quantization
         )
+        print("===> model loaded")
         tokenizer = transformers.AutoTokenizer.from_pretrained('EleutherAI/gpt-neox-20b', padding_side="left", device_map="auto")
         self.pipeline = transformers.pipeline('text-generation', model=model, tokenizer=tokenizer)
+        print("===> init finished")
     def __call__(self, data: Dict[str, Any]) -> List[Dict[str, Any]]:
         """
         print("===> inputs", parameters)
         result = self.pipeline(inputs, **parameters)
+        print("===> result", result)
         return result