Spaces:

fullstuckdev
/

Nvidia-llama

Sleeping

fullstuckdev commited on Nov 19, 2024

Commit

2e3ad26

1 Parent(s): 60dcdbe

change model

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,9 +2,6 @@ import gradio as gr
 import os
 from openai import OpenAI
-API_URL = "https://api-inference.huggingface.co/models/nvidia/Llama-3.1-Nemotron-70B-Instruct-HF"
-headers = {"Authorization": f"Bearer {os.getenv('HUGGINGFACE_API_KEY')}"}
 async def generate_response(user_input):
     client = OpenAI(
         base_url="https://api-inference.huggingface.co/v1/",
@@ -16,10 +13,9 @@ async def generate_response(user_input):
     ]
     response = client.chat.completions.create(
-        model="meta-llama/Llama-3.1-70B-Instruct",
         messages=messages,
-        max_tokens=500,
-        stream=False
     )
     return response.choices[0].message.content

 import os
 from openai import OpenAI
 async def generate_response(user_input):
     client = OpenAI(
         base_url="https://api-inference.huggingface.co/v1/",
     ]
     response = client.chat.completions.create(
+        model= 'nvidia/Llama-3.1-Nemotron-70B-Instruct-HF',
         messages=messages,
+        max_tokens= 500,
     )
     return response.choices[0].message.content