Spaces:

dar-tau
/

run_inference

Sleeping

App Files Files Community

dar-tau commited on Jun 8, 2024

Commit

4fc6cc7

verified ·

1 Parent(s): 5a29303

Update app.py

Browse files

Files changed (1) hide show

app.py +10 -11

app.py CHANGED Viewed

@@ -51,11 +51,11 @@ start_messages = [
 # functions
-@dataclass
-class PastKV:
-    past_key_values: Any = None
-past_key_values = PastKV()
 def past_kv_to_device(past_kv, device):
@@ -63,7 +63,7 @@ def past_kv_to_device(past_kv, device):
 @spaces.GPU
-def set_past_key_values(past_key_values):
     model, tokenizer = pipe.model, pipe.tokenizer
     tokenized = tokenizer.apply_chat_template(start_messages, return_tensors='pt')
@@ -71,26 +71,25 @@ def set_past_key_values(past_key_values):
     test_messages = [*start_messages, {'role': 'user', 'content': 'Hello World!'}]
     tokenized_test = tokenizer.apply_chat_template(test_messages, return_tensors='pt')
     assert (tokenized_test[:, :tokenized.shape[1]] == tokenized).all().cpu().item()
-    past_key_values.past_key_values = model(tokenized.to(model.device)).past_key_values
-    return True
 @spaces.GPU
-def generate(text):
     messages = [
         *start_messages,
         {'role': 'user', 'content': text}
     ]
     response = pipe(messages,
-                    past_key_values=past_key_values.past_key_values, #past_kv_to_device(past_key_values, pipe.model.device),
                     **generate_kwargs)[0]['generated_text']
     return response[-1]['content']
 if __name__ == "__main__":
     with torch.no_grad():
-        set_past_key_values(past_key_values)
         print(f'{past_key_values.past_key_values=}')
         demo = gr.Interface(generate,
-                            inputs="textbox", outputs="textbox")
         demo.launch()

 # functions
+# @dataclass
+# class PastKV:
+#     past_key_values: Any = None
+# past_key_values = PastKV()
 def past_kv_to_device(past_kv, device):
 @spaces.GPU
+def set_past_key_values():
     model, tokenizer = pipe.model, pipe.tokenizer
     tokenized = tokenizer.apply_chat_template(start_messages, return_tensors='pt')
     test_messages = [*start_messages, {'role': 'user', 'content': 'Hello World!'}]
     tokenized_test = tokenizer.apply_chat_template(test_messages, return_tensors='pt')
     assert (tokenized_test[:, :tokenized.shape[1]] == tokenized).all().cpu().item()
+    return gr.State(model(tokenized.to(model.device)).past_key_values)
 @spaces.GPU
+def generate(text, past_key_values):
     messages = [
         *start_messages,
         {'role': 'user', 'content': text}
     ]
     response = pipe(messages,
+                    past_key_values=past_key_values, #past_kv_to_device(past_key_values, pipe.model.device),
                     **generate_kwargs)[0]['generated_text']
     return response[-1]['content']
 if __name__ == "__main__":
     with torch.no_grad():
+        past_key_values = set_past_key_values()
         print(f'{past_key_values.past_key_values=}')
         demo = gr.Interface(generate,
+                            inputs=["textbox", gr.State(past_key_values)], outputs="textbox")
         demo.launch()