Spaces:

dar-tau
/

run_inference

Sleeping

dar-tau commited on Jun 8, 2024

Commit

74d1efc

verified ·

1 Parent(s): 1937eb3

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -54,13 +54,15 @@ start_messages = [
 class PastKV:
     past_key_values: Optional[torch.Tensor] = None
 def past_kv_to_device(past_kv, device):
     return tuple((k.to(device).detach(), v.to(device).detach()) for k, v in past_kv)
 @spaces.GPU
-def get_past_key_values(system_prompt):
     model, tokenizer = pipe.model, pipe.tokenizer
     tokenized = tokenizer.apply_chat_template(start_messages, return_tensors='pt')
@@ -68,8 +70,9 @@ def get_past_key_values(system_prompt):
     test_messages = [*start_messages, {'role': 'user', 'content': 'Hello World!'}]
     tokenized_test = tokenizer.apply_chat_template(test_messages, return_tensors='pt')
     assert (tokenized_test[:, :tokenized.shape[1]] == tokenized).all().cpu().item()
-    past_key_values = model(tokenized.to(model.device)).past_key_values
-    return PastKV(past_kv_to_device(past_key_values, 'cpu'))
 @spaces.GPU
 def generate(text, past_key_values):
@@ -84,7 +87,7 @@ def generate(text, past_key_values):
 if __name__ == "__main__":
-    past_key_values = get_past_key_values(system_prompt)
     demo = gr.Interface(partial(generate, past_key_values=past_key_values.past_key_values),
                         inputs="textbox", outputs="textbox")
     demo.launch()

 class PastKV:
     past_key_values: Optional[torch.Tensor] = None
+past_key_values = PastKV()
 def past_kv_to_device(past_kv, device):
     return tuple((k.to(device).detach(), v.to(device).detach()) for k, v in past_kv)
 @spaces.GPU
+def set_past_key_values():
     model, tokenizer = pipe.model, pipe.tokenizer
     tokenized = tokenizer.apply_chat_template(start_messages, return_tensors='pt')
     test_messages = [*start_messages, {'role': 'user', 'content': 'Hello World!'}]
     tokenized_test = tokenizer.apply_chat_template(test_messages, return_tensors='pt')
     assert (tokenized_test[:, :tokenized.shape[1]] == tokenized).all().cpu().item()
+    past_key_values.past_key_values = PastKV(past_kv_to_device(model(tokenized.to(model.device)).past_key_values, 'cpu'))
+    return True
 @spaces.GPU
 def generate(text, past_key_values):
 if __name__ == "__main__":
+    set_past_key_values()
     demo = gr.Interface(partial(generate, past_key_values=past_key_values.past_key_values),
                         inputs="textbox", outputs="textbox")
     demo.launch()