Spaces:

GaborToth2
/

chatbot

Sleeping

App Files Files Community

GaborToth2 commited on Mar 28

Commit

45bb735

1 Parent(s): 7ccaecf

removing cohere

Browse files

Files changed (2) hide show

app.py +10 -26
requirements.txt +0 -1

app.py CHANGED Viewed

@@ -1,7 +1,6 @@
 import gradio as gr
 from huggingface_hub import InferenceClient
 import os
-import cohere
 import faiss
 from transformers import pipeline
 from sentence_transformers import SentenceTransformer
@@ -23,10 +22,8 @@ index = faiss.IndexFlatL2(document_embeddings_np.shape[1])
 index.add(document_embeddings_np)
-client = InferenceClient("meta-llama/Llama-3.2-3B-Instruct")
 COHERE_API_KEY = os.getenv("COHERE_API_KEY")
-client_cohere = cohere.Client(COHERE_API_KEY)
-COHERE_MODEL = "command-r-plus"
 def respond(
     message,
@@ -35,7 +32,6 @@ def respond(
     max_tokens,
     temperature,
     top_p,
-    use_cohere_api,
 ):
     query_embedding = embedding_model.encode([message], convert_to_tensor=True)
@@ -56,27 +52,16 @@ def respond(
     response = ""
-    if use_cohere_api:
-        cohere_response = client_cohere.chat(
-            message=message,
-            model=COHERE_MODEL,
-            temperature=temperature,
-            max_tokens=max_tokens
-        )
-        response = cohere_response.text
         yield response
-    else:
-        for message in client.chat_completion(
-            messages,
-            max_tokens=max_tokens,
-            stream=True,
-            temperature=temperature,
-            top_p=top_p,
-        ):
-            token = message.choices[0].delta.content
-            response += token
-            yield response
 demo = gr.ChatInterface(
     respond,
@@ -91,7 +76,6 @@ demo = gr.ChatInterface(
             step=0.05,
             label="Top-p (nucleus sampling)",
         ),
-        gr.Checkbox(label="Use Cohere API."),
     ],
 )

 import gradio as gr
 from huggingface_hub import InferenceClient
 import os
 import faiss
 from transformers import pipeline
 from sentence_transformers import SentenceTransformer
 index.add(document_embeddings_np)
+client = InferenceClient("meta-llama/Llama-3.2-B-Instruct")
 COHERE_API_KEY = os.getenv("COHERE_API_KEY")
 def respond(
     message,
     max_tokens,
     temperature,
     top_p,
 ):
     query_embedding = embedding_model.encode([message], convert_to_tensor=True)
     response = ""
+    for message in client.chat_completion(
+        messages,
+        max_tokens=max_tokens,
+        stream=True,
+        temperature=temperature,
+        top_p=top_p,
+    ):
+        token = message.choices[0].delta.content
+        response += token
         yield response
 demo = gr.ChatInterface(
     respond,
             step=0.05,
             label="Top-p (nucleus sampling)",
         ),
     ],
 )

requirements.txt CHANGED Viewed

@@ -1,4 +1,3 @@
 huggingface_hub==0.25.2
-cohere
 faiss
 sentence_transformers

 huggingface_hub==0.25.2
 faiss
 sentence_transformers