Spaces:

dar-tau
/

run_inference

Sleeping

dar-tau commited on Jun 8, 2024

Commit

1b01c22

verified ·

1 Parent(s): 0b8d742

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -71,7 +71,7 @@ def set_past_key_values():
     test_messages = [*start_messages, {'role': 'user', 'content': 'Hello World!'}]
     tokenized_test = tokenizer.apply_chat_template(test_messages, return_tensors='pt')
     assert (tokenized_test[:, :tokenized.shape[1]] == tokenized).all().cpu().item()
-    past_key_values.past_key_values = PastKV(past_kv_to_device(model(tokenized.to(model.device)).past_key_values, 'cpu'))
     return True
@@ -82,13 +82,14 @@ def generate(text, past_key_values):
         {'role': 'user', 'content': text}
     ]
     response = pipe(messages,
-                    past_key_values=past_kv_to_device(past_key_values, model.device),
                     **generate_kwargs)[0]['generated_text']
     return response[-1]['content']
 if __name__ == "__main__":
-    set_past_key_values()
-    demo = gr.Interface(partial(generate, past_key_values=past_key_values.past_key_values),
-                        inputs="textbox", outputs="textbox")
-    demo.launch()

     test_messages = [*start_messages, {'role': 'user', 'content': 'Hello World!'}]
     tokenized_test = tokenizer.apply_chat_template(test_messages, return_tensors='pt')
     assert (tokenized_test[:, :tokenized.shape[1]] == tokenized).all().cpu().item()
+    past_key_values.past_key_values = PastKV(past_kv_to_device(model(tokenized.to(model.device)).past_key_values, model.device))
     return True
         {'role': 'user', 'content': text}
     ]
     response = pipe(messages,
+                    past_key_values=past_key_values, #past_kv_to_device(past_key_values, pipe.model.device),
                     **generate_kwargs)[0]['generated_text']
     return response[-1]['content']
 if __name__ == "__main__":
+    with torch.no_grad():
+        set_past_key_values()
+        demo = gr.Interface(partial(generate, past_key_values=past_key_values.past_key_values),
+                            inputs="textbox", outputs="textbox")
+        demo.launch()