Spaces:

VyLala
/

mtDNALocation

Running

App Files Files Community

VyLala commited on 16 days ago

Commit

86d55b0

verified ·

1 Parent(s): c330994

Update smart_fallback.py

Browse files

Files changed (1) hide show

smart_fallback.py +41 -20

smart_fallback.py CHANGED Viewed

@@ -111,28 +111,35 @@ def smart_google_queries(metadata: dict):
     title = metadata.get("title")
     combined = []
     # Construct queries
-    if isolate and isolate!="unknown":
         queries.append(f'"{isolate}" mitochondrial DNA')
         queries.append(f'"{isolate}" site:ncbi.nlm.nih.gov')
-    if author and author!="unknown":
         try:
-          author_name = author.split(',')[0]  # Use last name only
         except:
-          author_name = author
         queries.append(f'"{author_name}" mitochondrial DNA')
         queries.append(f'"{author_name}" mtDNA site:researchgate.net')
-    if institution and institution!="unknown":
         try:
-          short_inst = institution.split(',')[0]  # Take first part of institution
         except:
-          short_inst = institution
         queries.append(f'"{short_inst}" mtDNA sequence')
-        queries.append(f'"{short_inst}" isolate site:nature.com')
-    if title and title!='unknown':
       if title!="Direct Submission":
-        queries.append(title)
     return queries
 def filter_links_by_metadata(search_results, saveLinkFolder, accession=None):
@@ -159,7 +166,7 @@ def filter_links_by_metadata(search_results, saveLinkFolder, accession=None):
       print("save link folder inside this filter function: ", saveLinkFolder)
       article_text = data_preprocess.extract_text(link,saveLinkFolder)
       print("article text")
-      print(article_text)
       try:
         ext = link.split(".")[-1].lower()
         if ext not in ["pdf", "docx", "xlsx"]:
@@ -172,25 +179,39 @@ def filter_links_by_metadata(search_results, saveLinkFolder, accession=None):
       for keyword in keywords:
         if keyword.lower() in article_text.lower():
           if link not in output:
-            output.append(link)
-          print("link and keyword: ", link, keyword)
           return output
         if keyword.lower() in title_snippet.lower():
           if link not in output:
-            output.append(link)
-          print("link and keyword: ", link, keyword)
           return output
       return output
     filtered = []
     if len(search_results) > 0:
       for link in search_results:
-          if is_trusted_link(link):
-            if link not in filtered:
-              filtered.append(link)
-          else:
             output_link = is_relevant_title_snippet(link,saveLinkFolder, accession)
-            filtered += output_link
     return filtered
 def smart_google_search(metadata):

     title = metadata.get("title")
     combined = []
     # Construct queries
+    if isolate and isolate!="unknown" and isolate!="Unpublished":
         queries.append(f'"{isolate}" mitochondrial DNA')
         queries.append(f'"{isolate}" site:ncbi.nlm.nih.gov')
+    if author and author!="unknown" and author!="Unpublished":
         try:
+          author_name = ".".join(author.split(' ')[0].split(".")[:-1])  # Use last name only
         except:
+          try:
+            author_name = author.split(',')[0]  # Use last name only
+          except:
+            author_name = author
         queries.append(f'"{author_name}" mitochondrial DNA')
         queries.append(f'"{author_name}" mtDNA site:researchgate.net')
+    if institution and institution!="unknown" and institution!="Unpublished":
         try:
+          short_inst = ",".join(institution.split(',')[:2])  # Take first part of institution
         except:
+          try:
+            short_inst = institution.split(',')[0]
+          except:
+            short_inst = institution
         queries.append(f'"{short_inst}" mtDNA sequence')
+        #queries.append(f'"{short_inst}" isolate site:nature.com')
+    if title and title!='unknown' and title!="Unpublished":
       if title!="Direct Submission":
+        queries.append(title)
     return queries
 def filter_links_by_metadata(search_results, saveLinkFolder, accession=None):
       print("save link folder inside this filter function: ", saveLinkFolder)
       article_text = data_preprocess.extract_text(link,saveLinkFolder)
       print("article text")
+      #print(article_text)
       try:
         ext = link.split(".")[-1].lower()
         if ext not in ["pdf", "docx", "xlsx"]:
       for keyword in keywords:
         if keyword.lower() in article_text.lower():
           if link not in output:
+            output.append([link,keyword.lower()])
+          print("link and keyword for article text: ", link, keyword)
           return output
         if keyword.lower() in title_snippet.lower():
           if link not in output:
+            output.append([link,keyword.lower()])
+          print("link and keyword for title: ", link, keyword)
           return output
       return output
     filtered = []
     if len(search_results) > 0:
       for link in search_results:
+          # if is_trusted_link(link):
+          #   if link not in filtered:
+          #     filtered.append(link)
+          # else:
+          print(link)
+          if link:
             output_link = is_relevant_title_snippet(link,saveLinkFolder, accession)
+            print("output link: ")
+            print(output_link)
+            for out_link in output_link:
+              if isinstance(out_link,list) and len(out_link) > 1:
+                print(out_link)
+                kw = out_link[1]
+                if accession and kw == accession.lower():
+                  better_filter.append(out_link[0])
+                filtered.append(out_link[0])
+              else: filtered.append(out_link)
+          print("done with link and here is filter: ",filtered)
+    if better_filter:
+      filtered = better_filter
     return filtered
 def smart_google_search(metadata):