Spaces:

HUBioDataLab
/

ASCARIS

Running

App Files Files Community

fatmacankara commited on Sep 8, 2023

Commit

1744db1

1 Parent(s): 108cc29

Update code/pdb_featureVector.py

Browse files

Files changed (1) hide show

code/pdb_featureVector.py +5 -28

code/pdb_featureVector.py CHANGED Viewed

@@ -95,8 +95,6 @@ def pdb(input_set, mode, impute):
         data.domStart = data.domStart.replace({'nan': '-1'})
         data.domEnd = data.domEnd.replace({'nan': '-1'})
         data.distance = data.distance.replace({'nan': '-1'})
-        st.write('1')
-        st.write(data)
         """
         STEP 4
         Retrieve canonical and isoform UniProt sequences.
@@ -202,7 +200,6 @@ def pdb(input_set, mode, impute):
         else:
             pdbs = []
         print('Processing PDB structures...\n')
-        st.write('2')
         if pdbs == []:
             print('No PDB structure found for the query. ')
         print('Starting PDB structures download...\n')
@@ -303,7 +300,6 @@ def pdb(input_set, mode, impute):
                     filename.rename(filename_replace_ext.with_suffix('.pdb'))
             except:
                 FileNotFoundError
-        st.write('3')
         uniprot_matched = pd.merge(uniprot_matched, pdb_info, on='uniprotID', how='left')
         uniprot_matched = uniprot_matched.astype(str)
         uniprot_matched = uniprot_matched.drop_duplicates()
@@ -408,9 +404,7 @@ def pdb(input_set, mode, impute):
         dfNM = dfNM.sort_values(['uniprotID', 'resolution'], axis=0, ascending=True)
         dfNM = dfNM.drop_duplicates(['uniprotID', 'wt', 'mut', 'pos', 'pdbSequence'], keep='first')
         dfNM.rename(columns={'isoformSequence': 'uniprotSequence'}, inplace=True)
-        st.write('4')
-        st.write(dfM)
-        st.write(dfNM)
         dfM = dfM.astype(str)
         dfNM = dfNM.astype(str)
@@ -432,12 +426,8 @@ def pdb(input_set, mode, impute):
         print('Aligning sequences...\n')
         aligned_m = final_stage(dfM, annotation_list, Path(path_to_output_files / 'alignment_files'))
-        st.write('aligned_m')
-        st.write(aligned_m)
-        aligned_nm = final_stage(dfNM, annotation_list, Path(path_to_output_files / 'alignment_files'))
-        st.write(aligned_nm)
-        st.write('WOTE')
@@ -508,7 +498,6 @@ def pdb(input_set, mode, impute):
         print('Proceeding to  SwissModel search...')
         print('------------------------------------\n')
-        st.write('5')
         # At this point we have 4 dataframes
         # 1. after_up_pdb_alignment --- This is after PDB sequence alignment. There may be mutations that wasnt found matching to after the alignment. Will be searched in other databases as well.
         # 1a. aligned --- we are done with this.
@@ -607,7 +596,6 @@ def pdb(input_set, mode, impute):
         with_swiss_models = pd.concat([to_swiss, no_swiss_models]).drop_duplicates(['datapoint'], keep=False)
         with_swiss_models = with_swiss_models[to_swiss.columns]
-        st.write('6')
         # Add model info.
         with_swiss_models = with_swiss_models.astype(str)
@@ -713,7 +701,6 @@ def pdb(input_set, mode, impute):
             swissmodels_fasta = pd.DataFrame(columns=['uniprotID', 'template', 'qmean_norm', 'chain', 'fasta'])
         else:
             swissmodels_fasta.columns = ['uniprotID', 'template', 'qmean_norm', 'chain', 'fasta']
-        st.write('7')
         swissmodels_fasta = swissmodels_fasta.astype(str)
         swiss_models_with_data.qmean_norm = swiss_models_with_data.qmean_norm.astype(float)
@@ -828,7 +815,6 @@ def pdb(input_set, mode, impute):
         to_swiss_columns = to_swiss.columns
         to_swiss_size = len(to_swiss.drop_duplicates(['datapoint']))
         to_swiss = None
-        st.write('8')
         # CONTROL
         """
@@ -1325,7 +1311,6 @@ def pdb(input_set, mode, impute):
         swiss['source'] = 'SWISSMODEL'
         modbase['source'] = 'MODBASE'
         data = pd.concat([swiss, modbase, pdb])
-        st.write(data)
         data.reset_index(inplace=True)
         data.drop(['index'], axis=1, inplace=True)
         data = data.astype('str')
@@ -1344,7 +1329,6 @@ def pdb(input_set, mode, impute):
         existing_free_sasa = [str(i) for i in existing_free_sasa]
         existing_free_sasa = [i.split('/')[-1].split('.')[0] for i in existing_free_sasa]
         print('Calculation RSA for PDB Structure Files...\n')
-        st.write(existing_free_sasa)
         pdb_only = data[data.source == 'PDB']
@@ -1381,7 +1365,6 @@ def pdb(input_set, mode, impute):
         existing_free_sasa = list(Path(path_to_output_files / 'freesasa_files').glob("*"))
         existing_free_sasa = [str(i) for i in existing_free_sasa]
         existing_free_sasa = [i.split('/')[-1].split('.')[0] for i in existing_free_sasa]
-        st.write(existing_free_sasa)
         annotation_list += ['domainStartonPDB', 'domainEndonPDB']
         folder_path = path_to_output_files / 'freesasa_files'
@@ -1397,8 +1380,6 @@ def pdb(input_set, mode, impute):
         modbase_only = None
         data['uniprotSequence'] = data['uniprotSequence'].str.replace('U', 'C')
         data['pdbSequence'] = data['pdbSequence'].str.replace('U', 'C')
-        st.write('after')
-        st.write(data)
         for i in data.index:
             id_ = data.at[i, 'pdbID'].lower()
             up_id_ = data.at[i, 'uniprotID']
@@ -1420,13 +1401,11 @@ def pdb(input_set, mode, impute):
             alignments = get_alignments_3D(uniprotID, 'nan', pdb_path, pdbSequence, source, chain, pdbID, mode, Path(path_to_output_files / '3D_alignment'), file_format = 'gzip')
             mutPos = data.at[i, 'mutationPositionOnPDB']
-            st.write('mutpos', mutPos)
             try:
                 coordMut = get_coords(mutPos, alignments, 'nan', 'nan', mode)[0]
             except:
                 ValueError
                 coordMut = 'nan'
-            st.write('coordMut', coordMut)
             try:
                 sasa_pos = get_coords(mutPos, alignments, 'nan', 'nan', mode)[2]
                 data.at[i, 'sasa'] = sasa(data.at[i, 'source'], data.at[i, 'pdbID'], data.at[i, 'uniprotID'], sasa_pos,
@@ -1434,8 +1413,7 @@ def pdb(input_set, mode, impute):
             except:
                 ValueError
                 data.at[i, 'sasa'] = 'nan'  # mutation position is nan
-            st.write('data')
-            st.write(data)
             for annot in annotation_list:
                 annotx = []
                 try:
@@ -1501,8 +1479,7 @@ def pdb(input_set, mode, impute):
             k = pd.Series((key, str(list(set(val)))))
             interface_dataframe = interface_dataframe.append(k, ignore_index=True)
         interface_dataframe.columns = ['uniprotID', 'positions']
-        st.write('sasa')
-        st.write(data)
         if len(data) == 0:
             data = pd.DataFrame(
                 columns=['uniprotID', 'wt', 'mut', 'pos', 'composition', 'polarity', 'volume', 'granthamScore',
@@ -1711,4 +1688,4 @@ def pdb(input_set, mode, impute):
     hours, rem = divmod(end - start, 3600)
     minutes, seconds = divmod(rem, 60)
     print("Time passed: {:0>2}:{:0>2}:{:05.2f}".format(int(hours), int(minutes), seconds))
-    return ready#

         data.domStart = data.domStart.replace({'nan': '-1'})
         data.domEnd = data.domEnd.replace({'nan': '-1'})
         data.distance = data.distance.replace({'nan': '-1'})
         """
         STEP 4
         Retrieve canonical and isoform UniProt sequences.
         else:
             pdbs = []
         print('Processing PDB structures...\n')
         if pdbs == []:
             print('No PDB structure found for the query. ')
         print('Starting PDB structures download...\n')
                     filename.rename(filename_replace_ext.with_suffix('.pdb'))
             except:
                 FileNotFoundError
         uniprot_matched = pd.merge(uniprot_matched, pdb_info, on='uniprotID', how='left')
         uniprot_matched = uniprot_matched.astype(str)
         uniprot_matched = uniprot_matched.drop_duplicates()
         dfNM = dfNM.sort_values(['uniprotID', 'resolution'], axis=0, ascending=True)
         dfNM = dfNM.drop_duplicates(['uniprotID', 'wt', 'mut', 'pos', 'pdbSequence'], keep='first')
         dfNM.rename(columns={'isoformSequence': 'uniprotSequence'}, inplace=True)
         dfM = dfM.astype(str)
         dfNM = dfNM.astype(str)
         print('Aligning sequences...\n')
         aligned_m = final_stage(dfM, annotation_list, Path(path_to_output_files / 'alignment_files'))
+        aligned_nm = final_stage(dfNM, annotation_list, Path(path_to_output_files / 'alignment_files'))
         print('Proceeding to  SwissModel search...')
         print('------------------------------------\n')
         # At this point we have 4 dataframes
         # 1. after_up_pdb_alignment --- This is after PDB sequence alignment. There may be mutations that wasnt found matching to after the alignment. Will be searched in other databases as well.
         # 1a. aligned --- we are done with this.
         with_swiss_models = pd.concat([to_swiss, no_swiss_models]).drop_duplicates(['datapoint'], keep=False)
         with_swiss_models = with_swiss_models[to_swiss.columns]
         # Add model info.
         with_swiss_models = with_swiss_models.astype(str)
             swissmodels_fasta = pd.DataFrame(columns=['uniprotID', 'template', 'qmean_norm', 'chain', 'fasta'])
         else:
             swissmodels_fasta.columns = ['uniprotID', 'template', 'qmean_norm', 'chain', 'fasta']
         swissmodels_fasta = swissmodels_fasta.astype(str)
         swiss_models_with_data.qmean_norm = swiss_models_with_data.qmean_norm.astype(float)
         to_swiss_columns = to_swiss.columns
         to_swiss_size = len(to_swiss.drop_duplicates(['datapoint']))
         to_swiss = None
         # CONTROL
         """
         swiss['source'] = 'SWISSMODEL'
         modbase['source'] = 'MODBASE'
         data = pd.concat([swiss, modbase, pdb])
         data.reset_index(inplace=True)
         data.drop(['index'], axis=1, inplace=True)
         data = data.astype('str')
         existing_free_sasa = [str(i) for i in existing_free_sasa]
         existing_free_sasa = [i.split('/')[-1].split('.')[0] for i in existing_free_sasa]
         print('Calculation RSA for PDB Structure Files...\n')
         pdb_only = data[data.source == 'PDB']
         existing_free_sasa = list(Path(path_to_output_files / 'freesasa_files').glob("*"))
         existing_free_sasa = [str(i) for i in existing_free_sasa]
         existing_free_sasa = [i.split('/')[-1].split('.')[0] for i in existing_free_sasa]
         annotation_list += ['domainStartonPDB', 'domainEndonPDB']
         folder_path = path_to_output_files / 'freesasa_files'
         modbase_only = None
         data['uniprotSequence'] = data['uniprotSequence'].str.replace('U', 'C')
         data['pdbSequence'] = data['pdbSequence'].str.replace('U', 'C')
         for i in data.index:
             id_ = data.at[i, 'pdbID'].lower()
             up_id_ = data.at[i, 'uniprotID']
             alignments = get_alignments_3D(uniprotID, 'nan', pdb_path, pdbSequence, source, chain, pdbID, mode, Path(path_to_output_files / '3D_alignment'), file_format = 'gzip')
             mutPos = data.at[i, 'mutationPositionOnPDB']
             try:
                 coordMut = get_coords(mutPos, alignments, 'nan', 'nan', mode)[0]
             except:
                 ValueError
                 coordMut = 'nan'
             try:
                 sasa_pos = get_coords(mutPos, alignments, 'nan', 'nan', mode)[2]
                 data.at[i, 'sasa'] = sasa(data.at[i, 'source'], data.at[i, 'pdbID'], data.at[i, 'uniprotID'], sasa_pos,
             except:
                 ValueError
                 data.at[i, 'sasa'] = 'nan'  # mutation position is nan
             for annot in annotation_list:
                 annotx = []
                 try:
             k = pd.Series((key, str(list(set(val)))))
             interface_dataframe = interface_dataframe.append(k, ignore_index=True)
         interface_dataframe.columns = ['uniprotID', 'positions']
         if len(data) == 0:
             data = pd.DataFrame(
                 columns=['uniprotID', 'wt', 'mut', 'pos', 'composition', 'polarity', 'volume', 'granthamScore',
     hours, rem = divmod(end - start, 3600)
     minutes, seconds = divmod(rem, 60)
     print("Time passed: {:0>2}:{:0>2}:{:05.2f}".format(int(hours), int(minutes), seconds))
+    return ready