pathfinder_v3

Running

App Files Files Community

kiyer commited on Jul 30, 2024

Commit

2ddd003

verified ·

1 Parent(s): 58d5580

added embedding plot

Browse files

Files changed (2) hide show

app.py +40 -3
pfdr_arxiv_cutoff_distances.npy +3 -0

app.py CHANGED Viewed

@@ -276,12 +276,15 @@ class RetrievalSystem():
     def return_formatted_df(self, top_results, small_df):
         df = pd.DataFrame(small_df)
-        df = df.drop(columns=['embed','umap_x','umap_y','cite_bibcodes','ref_bibcodes'])
         links = ['https://ui.adsabs.harvard.edu/abs/'+i+'/abstract' for i in small_df['bibcode']]
         scores = [top_results[i] for i in top_results]
         df.insert(1,'ADS Link',links,True)
         df.insert(2,'Relevance',scores,True)
-        df = df[['ADS Link','Relevance','date','cites','title','authors','abstract','keywords','ads_id']]
         return df
 # @st.cache_resource
@@ -547,7 +550,39 @@ def evaluate_overall_consensus(query: str, abstracts: List[str]) -> OverallConse
     return response
 # ---------------------------------------
@@ -599,7 +634,6 @@ if st.session_state.get('runpfdr'):
                 question_type_gen = question_type_gen.replace('\n','  \n')
                 st.markdown(question_type_gen)
-    with col2:
         with st.spinner("Evaluating abstract consensus"):
             with st.expander("Abstract consensus", expanded=True):
                 consensus_answer = evaluate_overall_consensus(query, [papers_df['abstract'][i] for i in range(len(papers_df))])
@@ -607,6 +641,9 @@ if st.session_state.get('runpfdr'):
                 st.markdown(consensus_answer.explanation)
                 st.markdown('Relevance of retrieved papers to answer: %.1f' %consensus_answer.relevance_score)
     session_vars = {
         "runtime": "pathfinder_v1_online",
         "query": query,

     def return_formatted_df(self, top_results, small_df):
         df = pd.DataFrame(small_df)
+        df = df.drop(columns=['umap_x','umap_y','cite_bibcodes','ref_bibcodes'])
         links = ['https://ui.adsabs.harvard.edu/abs/'+i+'/abstract' for i in small_df['bibcode']]
         scores = [top_results[i] for i in top_results]
+        indices = [i for i in top_results]
         df.insert(1,'ADS Link',links,True)
         df.insert(2,'Relevance',scores,True)
+        df.insert(3,'Indices',indices,True)
+        df = df[['ADS Link','Relevance','date','cites','title','authors','abstract','keywords','ads_id','Indices','embed']]
+        df.index += 1
         return df
 # @st.cache_resource
     return response
+def calc_outlier_flag(papers_df, top_k, cutoff_adjust = 0.1):
+    cut_dist = np.load('pfdr_arxiv_cutoff_distances.npy') - cutoff_adjust
+    pts = np.array(papers_df['embed'].tolist())
+    centroid = np.mean(pts,0)
+    dists = np.sqrt(np.sum((pts-centroid)**2,1))
+    outlier_flag = (dists > cut_dist[top_k-1])
+    return outlier_flag
+def make_embedding_plot(papers_df, consensus_answer):
+    plt_indices = np.array(papers_df['Indices'].tolist())
+    if 'arxiv_corpus' not in st.session_state:
+        st.session_state.arxiv_corpus = load_arxiv_corpus()
+    xax = np.array(st.session_state.arxiv_corpus['umap_x'])
+    yax = np.array(st.session_state.arxiv_corpus['umap_y'])
+    outlier_flag = calc_outlier_flag(papers_df, top_k, cutoff_adjust=0.25)
+    alphas = np.ones((len(plt_indices),)) * 0.9
+    alphas[outlier_flag] = 0.5
+    fig = plt.figure(figsize=(9,12))
+    plt.scatter(xax,yax, s=1, alpha=0.01, c='k')
+    plt.scatter(xax[plt_indices], yax[plt_indices], s=300*alphas**2, alpha=alphas, c='w')
+    plt.scatter(xax[plt_indices], yax[plt_indices], s=100*alphas**2, alpha=alphas, c='dodgerblue')
+    # plt.scatter(xax[plt_indices][outlier_flag], yax[plt_indices][outlier_flag], s=100, alpha=1., c='firebrick')
+    plt.axis([0,20,-4.2,18])
+    plt.axis('off')
+    plt.title('Query: '+st.session_state.query+'\n'+r'N$_{\rm outliers}: %.0f/%.0f$, Consensus: ' %(np.sum(outlier_flag), len(outlier_flag)) + consensus_answer.consensus + ' (%.1f)' %consensus_answer.relevance_score)
+    st.pyplot(fig)
 # ---------------------------------------
                 question_type_gen = question_type_gen.replace('\n','  \n')
                 st.markdown(question_type_gen)
         with st.spinner("Evaluating abstract consensus"):
             with st.expander("Abstract consensus", expanded=True):
                 consensus_answer = evaluate_overall_consensus(query, [papers_df['abstract'][i] for i in range(len(papers_df))])
                 st.markdown(consensus_answer.explanation)
                 st.markdown('Relevance of retrieved papers to answer: %.1f' %consensus_answer.relevance_score)
+    with col2:
+        make_embedding_plot(papers_df, consensus_answer)
     session_vars = {
         "runtime": "pathfinder_v1_online",
         "query": query,

pfdr_arxiv_cutoff_distances.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:64edda3cf9c3cde63a6dc818f0e6df573dc1ce32217acac1e2bcdfe7f3a4e0e3
+size 928