Spaces:

fullstuckdev
/

Nvidia-llama

Sleeping

fullstuckdev commited on Nov 19, 2024

Commit

bb971ee

1 Parent(s): 160e363

add open AI

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,20 +1,28 @@
 import gradio as gr
 import os
-import requests
 API_URL = "https://api-inference.huggingface.co/models/nvidia/Llama-3.1-Nemotron-70B-Instruct-HF"
 headers = {"Authorization": f"Bearer {os.getenv('HUGGINGFACE_API_KEY')}"}
 async def generate_response(user_input):
-    payload = {
-        "model": "nvidia/Llama-3.1-Nemotron-70B-Instruct-HF",
-        "messages": [{"role": "user", "content": user_input}],
-        "max_tokens": 16384,
-        "max_completion_tokens": 16384
-    }
-    response = requests.post(API_URL, headers=headers, json=payload)
-    return response.json()[0]['generated_text']
 demo = gr.Interface(
     fn=generate_response,

 import gradio as gr
 import os
+from openai import OpenAI
 API_URL = "https://api-inference.huggingface.co/models/nvidia/Llama-3.1-Nemotron-70B-Instruct-HF"
 headers = {"Authorization": f"Bearer {os.getenv('HUGGINGFACE_API_KEY')}"}
 async def generate_response(user_input):
+    client = OpenAI(
+        base_url="https://api-inference.huggingface.co/v1/",
+        api_key=os.getenv('HUGGINGFACE_API_KEY')
+    )
+    messages = [
+        {"role": "user", "content": user_input}
+    ]
+    response = client.chat.completions.create(
+        model="meta-llama/Llama-3.1-70B-Instruct",
+        messages=messages,
+        max_tokens=500,
+        stream=False
+    )
+    return response['choices'][0]['message']['content']
 demo = gr.Interface(
     fn=generate_response,