Spaces:

ayushnoori
/

clinical-drug-repurposing

Sleeping

App Files Files Community

ayushnoori commited on Jun 28, 2024

Commit

48e3a32

1 Parent(s): d4ca2d2

Update input

Browse files

Files changed (5) hide show

pages/input.py +26 -35
pages/predict.py +16 -0
pages/split.py +2 -2
pages/validate.py +8 -3
project_config.py +1 -0

pages/input.py CHANGED Viewed

@@ -31,42 +31,32 @@ with st.spinner('Loading disease splits...'):
         # Load from Kempner using sync_data.sh
         disease_splits = pd.read_csv(project_config.DATA_DIR / 'disease_splits' / 'disease_splits.csv',
                                     dtype = {'node_index': str, 'disease_split_index': str})
     else:
         # Read disease splits from HF
         disease_splits = hf_hub_download(repo_id=project_config.HF_REPO,
-                                         filename='disease_split/disease_splits.csv',
                                          token=st.secrets["HF_TOKEN"], repo_type="dataset")
-    # Group disease splits by disease_split_index column
-    disease_splits_grouped = disease_splits.groupby('disease_split_index').size().reset_index(name='node_count')
-    # Subset to unique disease splits
-    splits_df =disease_splits[disease_splits['node_index'] == disease_splits['disease_split_index']]
-    splits_df = splits_df.drop_duplicates(subset='disease_split_index').reset_index(drop=True)
-    splits_df = splits_df[['node_index', 'node_name', 'node_id']]
-    # Merge with counts
-    splits_df = splits_df.merge(disease_splits_grouped, left_on='node_index', right_on='disease_split_index', how='left')
-    splits_df = splits_df.drop(columns='disease_split_index')
-    splits_df['node_name'] = splits_df['node_name'].str.replace(' \\(disease\\)', '', regex=True)
-    # Add row for all to beginning
-    splits_df['node_index'] = splits_df['node_index'].astype(str)
-    splits_df = pd.concat([pd.DataFrame([['all', 'all diseases', None, disease_splits.shape[0]]], columns=splits_df.columns), splits_df], ignore_index=True)
-    # For each disease split, count number of edges (number of rows in CSV file in disease_splits directory)
-    # Do not read file in
-    edge_counts = []
-    for index, row in splits_df.iterrows():
-        # Count lines
-        file_name = project_config.DATA_DIR / 'disease_splits' / 'split_edges' /  f'{row["node_index"]}.csv'
-        edge_count = int(subprocess.check_output(['wc', '-l', file_name]).split()[0]) - 1
-        edge_counts.append(edge_count)
-    # Add edge counts to splits_df
-    splits_df['edge_count'] = edge_counts
     # Get list of available modles
     model_files = os.listdir(project_config.MODEL_DIR / 'embeddings')
@@ -92,7 +82,6 @@ with st.spinner('Loading disease splits...'):
     # Get available models, only keep latest version per split
     avail_models = pd.DataFrame([get_model_metadata(f) for f in model_files])
     avail_models = avail_models.sort_values('date', ascending=False).drop_duplicates('test').reset_index(drop=True)
-    # avail_models.loc[avail_models['test'] == 'all', 'test'] = 'all diseases'
     # Add column to indicate if model is available
     splits_df['available'] = splits_df['node_index'].isin(avail_models['test'])
@@ -104,9 +93,12 @@ with st.spinner('Loading disease splits...'):
     ####################################################################################################
     # Select disease split from splits with available models
     # Make dictionary with node_index: node_name, where name is value shown but index is used for query
-    # split_options = splits_df[splits_df['available']].copy()
-    split_options = splits_df.copy()
     split_options = split_options.set_index('node_index')['node_name'].to_dict()
     # Check if split is in session state
@@ -119,7 +111,6 @@ with st.spinner('Loading disease splits...'):
                          index = split_index)
     # Show all splits dataframe
-    splits_display = splits_df[['node_index', 'node_name', 'node_count', 'edge_count', 'available']].copy()
     splits_display = splits_display.rename(columns = {'node_index': 'Split ID', 'node_name': 'Disease', 'node_count': 'Node Count', 'edge_count': 'Edge Count', 'available': 'Model Available'})
     st.dataframe(splits_display, use_container_width = True, hide_index = True)

         # Load from Kempner using sync_data.sh
         disease_splits = pd.read_csv(project_config.DATA_DIR / 'disease_splits' / 'disease_splits.csv',
                                     dtype = {'node_index': str, 'disease_split_index': str})
+        splits_df = pd.read_csv(project_config.DATA_DIR / 'disease_splits' / 'disease_splits_summary.csv',
+                                dtype = {'node_index': str, 'disease_split_index': str})
     else:
         # Read disease splits from HF
         disease_splits = hf_hub_download(repo_id=project_config.HF_REPO,
+                                         filename='data/disease_splits/disease_splits.csv',
                                          token=st.secrets["HF_TOKEN"], repo_type="dataset")
+        disease_splits = hf_hub_download(repo_id=project_config.HF_REPO,
+                                    filename='data/disease_splits/disease_splits_summary.csv',
+                                    token=st.secrets["HF_TOKEN"], repo_type="dataset")
+    # # For each disease split, count number of edges (number of rows in CSV file in disease_splits directory)
+    # # Do not read file in
+    # edge_counts = []
+    # for index, row in splits_df.iterrows():
+    #     # Count lines
+    #     file_name = project_config.DATA_DIR / 'disease_splits' / 'split_edges' /  f'{row["node_index"]}.csv'
+    #     edge_count = int(subprocess.check_output(['wc', '-l', file_name]).split()[0]) - 1
+    #     edge_counts.append(edge_count)
+    # # Add edge counts to splits_df
+    # splits_df['edge_count'] = edge_counts
     # Get list of available modles
     model_files = os.listdir(project_config.MODEL_DIR / 'embeddings')
     # Get available models, only keep latest version per split
     avail_models = pd.DataFrame([get_model_metadata(f) for f in model_files])
     avail_models = avail_models.sort_values('date', ascending=False).drop_duplicates('test').reset_index(drop=True)
     # Add column to indicate if model is available
     splits_df['available'] = splits_df['node_index'].isin(avail_models['test'])
     ####################################################################################################
     # Select disease split from splits with available models
+    splits_display = splits_df[['node_index', 'node_name', 'node_count', 'edge_count', 'available']].copy()
+    splits_display['node_name'] = splits_display['node_name'].str.replace(' \\(disease\\)', '', regex=True)
     # Make dictionary with node_index: node_name, where name is value shown but index is used for query
+    # split_options = splits_display[splits_display['available']].copy()
+    split_options = splits_display.copy()
     split_options = split_options.set_index('node_index')['node_name'].to_dict()
     # Check if split is in session state
                          index = split_index)
     # Show all splits dataframe
     splits_display = splits_display.rename(columns = {'node_index': 'Split ID', 'node_name': 'Disease', 'node_count': 'Node Count', 'edge_count': 'Edge Count', 'available': 'Model Available'})
     st.dataframe(splits_display, use_container_width = True, hide_index = True)

pages/predict.py CHANGED Viewed

@@ -34,6 +34,13 @@ st.subheader(f"{capitalize_after_slash(st.session_state.query['target_node_type'
 # Print current query
 st.markdown(f"**Query:** {st.session_state.query['source_node'].replace('_', ' ')} ➡️ {st.session_state.query['relation'].replace('_', '-')} ➡️ {st.session_state.query['target_node_type'].replace('_', ' ')}")
 @st.cache_data(show_spinner = 'Downloading AI model...')
 def get_embeddings():
@@ -272,3 +279,12 @@ with st.spinner('Computing predictions...'):
     # Save to session state
     st.session_state.predictions = display_data
     st.session_state.display_database = display_database

 # Print current query
 st.markdown(f"**Query:** {st.session_state.query['source_node'].replace('_', ' ')} ➡️ {st.session_state.query['relation'].replace('_', '-')} ➡️ {st.session_state.query['target_node_type'].replace('_', ' ')}")
+# Print split
+split = st.session_state.split
+splits_df = st.session_state.splits_df
+num_nodes = splits_df[splits_df['node_index'] == split]['node_count'].values[0]
+num_edges = splits_df[splits_df['node_index'] == split]['edge_count'].values[0]
+st.markdown(f"**Disease Split:** {st.session_state.split} ({num_nodes} nodes, {num_edges} edges)")
 @st.cache_data(show_spinner = 'Downloading AI model...')
 def get_embeddings():
     # Save to session state
     st.session_state.predictions = display_data
     st.session_state.display_database = display_database
+    # If validation not in session state
+    if 'validation' not in st.session_state:
+        col1, col2, col3 = st.columns(3)
+        with col2:
+            if st.button("Validate Predictions"):
+                st.switch_page("pages/validate.py")

pages/split.py CHANGED Viewed

@@ -76,7 +76,7 @@ plt.tight_layout()
 # Adding labels on top of each bar
 for bar in bars:
     yval = bar.get_height()
-    plt.text(bar.get_x() + bar.get_width()/2.0, yval, int(yval), va='bottom', fontsize=12)
 plt.ylim(0, max(method_counts['Count'])*1.1)
 # Show plot
@@ -107,7 +107,7 @@ if disease_split_edges.shape[0] > 0:
     # Adding labels on top of each bar
     for bar in bars:
         yval = bar.get_height()
-        plt.text(bar.get_x() + bar.get_width()/2.0, yval, int(yval), va='bottom', fontsize=12)
     plt.ylim(0, max(relation_counts['Count'])*1.1)
     # Show plot

 # Adding labels on top of each bar
 for bar in bars:
     yval = bar.get_height()
+    plt.text(bar.get_x() + bar.get_width()/2.0, yval, int(yval), va='bottom', ha='center', fontsize=12)
 plt.ylim(0, max(method_counts['Count'])*1.1)
 # Show plot
     # Adding labels on top of each bar
     for bar in bars:
         yval = bar.get_height()
+        plt.text(bar.get_x() + bar.get_width()/2.0, yval, int(yval), va='bottom', ha='center', fontsize=12)
     plt.ylim(0, max(relation_counts['Count'])*1.1)
     # Show plot

pages/validate.py CHANGED Viewed

@@ -31,9 +31,14 @@ st.subheader("Validate Predictions", divider = "green")
 # Print current query
 st.markdown(f"**Query:** {st.session_state.query['source_node'].replace('_', ' ')} ➡️ {st.session_state.query['relation'].replace('_', '-')} ➡️ {st.session_state.query['target_node_type'].replace('_', ' ')}")
-# Coming soon
-# st.write("Coming soon...")
 source_node_type = st.session_state.query['source_node_type']
 source_node = st.session_state.query['source_node']
 relation = st.session_state.query['relation']

 # Print current query
 st.markdown(f"**Query:** {st.session_state.query['source_node'].replace('_', ' ')} ➡️ {st.session_state.query['relation'].replace('_', '-')} ➡️ {st.session_state.query['target_node_type'].replace('_', ' ')}")
+# Print split
+split = st.session_state.split
+splits_df = st.session_state.splits_df
+num_nodes = splits_df[splits_df['node_index'] == split]['node_count'].values[0]
+num_edges = splits_df[splits_df['node_index'] == split]['edge_count'].values[0]
+st.markdown(f"**Disease Split:** {st.session_state.split} ({num_nodes} nodes, {num_edges} edges)")
+# Get query and predictions
 source_node_type = st.session_state.query['source_node_type']
 source_node = st.session_state.query['source_node']
 relation = st.session_state.query['relation']

project_config.py CHANGED Viewed

@@ -31,6 +31,7 @@ print(f"VDI: {VDI}")
 # Define global variable to check if running locally
 hostname, username = check_local_machine()
 LOCAL = True if username == 'an583' else False
 # Define HF repo variable
 HF_REPO = 'ayushnoori/clinical-drug-repurposing'

 # Define global variable to check if running locally
 hostname, username = check_local_machine()
 LOCAL = True if username == 'an583' else False
+print(f"LOCAL: {LOCAL}")
 # Define HF repo variable
 HF_REPO = 'ayushnoori/clinical-drug-repurposing'