Spaces:

fullstuckdev
/

Nvidia-llama

Sleeping

fullstuckdev commited on Nov 19, 2024

Commit

529f4f3

1 Parent(s): 2e3ad26

change max tokens

Files changed (1) hide show

app.py CHANGED Viewed

@@ -15,7 +15,8 @@ async def generate_response(user_input):
     response = client.chat.completions.create(
         model= 'nvidia/Llama-3.1-Nemotron-70B-Instruct-HF',
         messages=messages,
-        max_tokens= 500,
     )
     return response.choices[0].message.content

     response = client.chat.completions.create(
         model= 'nvidia/Llama-3.1-Nemotron-70B-Instruct-HF',
         messages=messages,
+        max_tokens=16384,
+        max_completion_tokens=16384
     )
     return response.choices[0].message.content