Spaces:

poemsforaphrodite
/

rag-chat

Sleeping

poemsforaphrodite commited on Sep 27, 2024

Commit

8ae9422

verified ·

1 Parent(s): 7a55ced

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -23,7 +23,7 @@ index_name = "main"  # Your index name
 index = pc.Index(index_name)
 def get_embedding(text):
-    response = client.embeddings.create(input=text, model="text-embedding-ada-002")
     return response.data[0].embedding
 def process_pdf(file):
@@ -106,8 +106,7 @@ def process_upload(upload_type, file_or_link, file_name=None):
 def process_chunk(chunk, doc_id, i, upload_type, doc_name):
     embedding = get_embedding(chunk)
-    truncated_embedding = embedding[:200]
-    return (f"{doc_id}_{i}", truncated_embedding, {
         "text": chunk,
         "type": upload_type,
         "doc_id": doc_id,
@@ -118,9 +117,8 @@ def process_chunk(chunk, doc_id, i, upload_type, doc_name):
 def get_relevant_context(query, top_k=5):
     print(f"Getting relevant context for query: {query}")
     query_embedding = get_embedding(query)
-    truncated_query_embedding = query_embedding[:200]
-    search_results = index.query(vector=truncated_query_embedding, top_k=top_k, include_metadata=True)
     print(f"Found {len(search_results['matches'])} relevant results")
     # Sort results by doc_id and chunk_index to maintain document structure

 index = pc.Index(index_name)
 def get_embedding(text):
+    response = client.embeddings.create(input=text, model="text-embedding-3-large")
     return response.data[0].embedding
 def process_pdf(file):
 def process_chunk(chunk, doc_id, i, upload_type, doc_name):
     embedding = get_embedding(chunk)
+    return (f"{doc_id}_{i}", embedding, {
         "text": chunk,
         "type": upload_type,
         "doc_id": doc_id,
 def get_relevant_context(query, top_k=5):
     print(f"Getting relevant context for query: {query}")
     query_embedding = get_embedding(query)
+    search_results = index.query(vector=query_embedding, top_k=top_k, include_metadata=True)
     print(f"Found {len(search_results['matches'])} relevant results")
     # Sort results by doc_id and chunk_index to maintain document structure