pathfinder_v3

Running

App Files Files Community

kiyer commited on Aug 6, 2024

Commit

7d0b0c1

1 Parent(s): 793347c

try fix for index issue

Browse files

Files changed (1) hide show

app.py +30 -26

app.py CHANGED Viewed

@@ -243,28 +243,28 @@ class RetrievalSystem():
                                            query_embedding,
                                            rerank_top_k,
                                            return_scores = False)
-            try:
-                docs_for_rerank = [small_df['abstract'][i] for i in range(rerank_top_k)]
-                if len(docs_for_rerank) == 0:
-                    return []
-                reranked_results = self.cohere_client.rerank(
-                    query=query,
-                    documents=docs_for_rerank,
-                    model='rerank-english-v3.0',
-                    top_n=top_k
-                )
-                final_results = []
-                for result in reranked_results.results:
-                    doc_id = top_results[result.index]
-                    doc_text = docs_for_rerank[result.index]
-                    score = float(result.relevance_score)
-                    final_results.append([doc_id, "", score])
-                final_indices = [doc[0] for doc in final_results]
-                if return_scores:
-                    return {result[0]: result[2] for result in final_results}, self.dataset[final_indices]
-                return [doc[0] for doc in final_results], self.dataset[final_indices]
-            except:
-                print('heavy load, please wait 10s and try again.')
         else:
             top_results, small_df = self.rank_and_filter(query,
                                                query_embedding,
@@ -278,6 +278,8 @@ class RetrievalSystem():
         df = pd.DataFrame(small_df)
         df = df.drop(columns=['umap_x','umap_y','cite_bibcodes','ref_bibcodes'])
         links = ['https://ui.adsabs.harvard.edu/abs/'+i+'/abstract' for i in small_df['bibcode']]
         scores = [top_results[i] for i in top_results]
         indices = [i for i in top_results]
         df.insert(1,'ADS Link',links,True)
@@ -477,7 +479,7 @@ def run_agent_qa(query):
 def run_rag_qa(query, papers_df):
-    try:
         loaders = []
         documents = []
@@ -497,6 +499,8 @@ def run_rag_qa(query, papers_df):
         # retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 6,  "fetch_k": len(splits)})
         retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 6})
         if st.session_state.question_type == 'Bibliometric':
             template = bibliometric_prompt
         elif st.session_state.question_type == 'Single-paper':
@@ -523,10 +527,10 @@ def run_rag_qa(query, papers_df):
         rag_answer = rag_chain_with_source.invoke(query, )
         vectorstore.delete_collection()
-    except:
-        st.subheader('heavy load! please wait 10 seconds and try again.')
-    return rag_answer
 def guess_question_type(query: str):

                                            query_embedding,
                                            rerank_top_k,
                                            return_scores = False)
+            # try:
+            docs_for_rerank = [small_df['abstract'][i] for i in range(rerank_top_k)]
+            if len(docs_for_rerank) == 0:
+                return []
+            reranked_results = self.cohere_client.rerank(
+                query=query,
+                documents=docs_for_rerank,
+                model='rerank-english-v3.0',
+                top_n=top_k
+            )
+            final_results = []
+            for result in reranked_results.results:
+                doc_id = top_results[result.index]
+                doc_text = docs_for_rerank[result.index]
+                score = float(result.relevance_score)
+                final_results.append([doc_id, "", score])
+            final_indices = [doc[0] for doc in final_results]
+            if return_scores:
+                return {result[0]: result[2] for result in final_results}, self.dataset[final_indices]
+            return [doc[0] for doc in final_results], self.dataset[final_indices]
+            # except:
+                # print('heavy load, please wait 10s and try again.')
         else:
             top_results, small_df = self.rank_and_filter(query,
                                                query_embedding,
         df = pd.DataFrame(small_df)
         df = df.drop(columns=['umap_x','umap_y','cite_bibcodes','ref_bibcodes'])
         links = ['https://ui.adsabs.harvard.edu/abs/'+i+'/abstract' for i in small_df['bibcode']]
+        # st.write(top_results[0:10])
         scores = [top_results[i] for i in top_results]
         indices = [i for i in top_results]
         df.insert(1,'ADS Link',links,True)
 def run_rag_qa(query, papers_df):
+    # try:
         loaders = []
         documents = []
         # retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 6,  "fetch_k": len(splits)})
         retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 6})
         if st.session_state.question_type == 'Bibliometric':
             template = bibliometric_prompt
         elif st.session_state.question_type == 'Single-paper':
         rag_answer = rag_chain_with_source.invoke(query, )
         vectorstore.delete_collection()
+    # except:
+    #     st.subheader('heavy load! please wait 10 seconds and try again.')
+        return rag_answer
 def guess_question_type(query: str):