Spaces:

dar-tau
/

run_inference

Sleeping

App Files Files Community

dar-tau commited on Jun 8, 2024

Commit

92585dc

verified ·

1 Parent(s): d3017cb

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -10

app.py CHANGED Viewed

@@ -33,34 +33,42 @@ Assistant: "" (nothing much to contribute at this point. return nothing)
 (3)
 User: "Help me find a present for my"
 Assistant: "girlfriend;mother;father;friend"
 '''
 @spaces.GPU
 def get_past_key_values(system_prompt):
     model, tokenizer = pipe.model, pipe.tokenizer
-    messages = [{'role': 'system', 'content': system_prompt}]
-    tokenized = tokenizer.apply_chat_template(messages, return_tensors='pt')
-    # assert that this is indeed a prefix (TODO: make sure this is robust)
-    messages.append({'role': 'user', 'content': 'TEST'})
-    tokenized_test = tokenizer.apply_chat_template(messages, return_tensors='pt')
     assert (tokenized_test[:, :tokenized.shape[1]] == tokenized).all().cpu().item()
     return model(tokenized.to(model.device)).past_key_values
 @spaces.GPU
-def generate(text):
     messages = [
-        {'role': 'system', 'content': system_prompt},
         {'role': 'user', 'content': text}
     ]
-    response = pipe(messages, **generate_kwargs)[0]['generated_text']
     return response[-1]['content']
 if __name__ == "__main__":
     past_key_values = get_past_key_values(system_prompt)
-    demo = gr.Interface(generate, inputs="textbox", outputs="textbox")
     demo.launch()

 (3)
 User: "Help me find a present for my"
 Assistant: "girlfriend;mother;father;friend"
+You will now get a blank message from the user and then after your answer, the user will give you the text to complete.
 '''
+start_messages = [
+    {'role': 'system', 'content': system_prompt},
+    {'role': 'user', 'content': '  '},
+    {'role': 'assistant', 'content': '<Waiting for text>'}
+]
 @spaces.GPU
 def get_past_key_values(system_prompt):
     model, tokenizer = pipe.model, pipe.tokenizer
+    tokenized = tokenizer.apply_chat_template(start_messages, return_tensors='pt')
+    # Check that this is indeed a prefix of the entire message
+    test_messages = [*start_messages, {'role': 'user', 'content': 'Hello World!'}]
+    tokenized_test = tokenizer.apply_chat_template(test_messages, return_tensors='pt')
     assert (tokenized_test[:, :tokenized.shape[1]] == tokenized).all().cpu().item()
     return model(tokenized.to(model.device)).past_key_values
 @spaces.GPU
+def generate(text, past_key_values):
     messages = [
+        *start_messages,
         {'role': 'user', 'content': text}
     ]
+    response = pipe(messages,
+                    past_key_values=past_key_values,
+                    **generate_kwargs)[0]['generated_text']
     return response[-1]['content']
 if __name__ == "__main__":
     past_key_values = get_past_key_values(system_prompt)
+    demo = gr.Interface(partial(generate, past_key_values=past_key_values),
+                        inputs="textbox", outputs="textbox")
     demo.launch()