Spaces:

VyLala
/

mtDNALocation

Running

App Files Files Community

VyLala commited on Apr 13

Commit

e9dc740

verified ·

1 Parent(s): d8e40f0

Upload 2 files

Browse files

Files changed (2) hide show

app.py +1 -1
mtdna_classifier.py +26 -6

app.py CHANGED Viewed

@@ -136,4 +136,4 @@ with gr.Blocks() as interface:
     submit_feedback.click(fn=store_feedback_to_drive, inputs=[accession, q1, q2, contact], outputs=feedback_status)
     reset_button.click(fn=reset_fields, inputs=[], outputs=[accession, q1, q2, contact, feedback_status, output_table, output_summary, status])
-interface.launch()

     submit_feedback.click(fn=store_feedback_to_drive, inputs=[accession, q1, q2, contact], outputs=feedback_status)
     reset_button.click(fn=reset_fields, inputs=[], outputs=[accession, q1, q2, contact, feedback_status, output_table, output_summary, status])
+interface.launch(share=True)

mtdna_classifier.py CHANGED Viewed

@@ -44,13 +44,19 @@ def get_info_from_accession(accession):
     # Return the values, even if they are empty strings
     return pubmedID, isolate
 # Step 2: Get doi link to access the paper
-def get_doi_from_pubmed_id(id):
-    cmd = f'{os.environ["HOME"]}/edirect/esummary -db pubmed -id {id} -format medline | grep -i "AID"'
     result = subprocess.run(cmd, shell=True, stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
     output = result.stdout
     doi_pattern = r'10\.\d{4,9}/[-._;()/:A-Z0-9]+(?=\s*\[doi\])'
     match = re.search(doi_pattern, output, re.IGNORECASE)
-    return match.group(0)
 # Step 3: Extract Text: Get the paper (html text), sup. materials (pdf, doc, excel) and do text-preprocessing
 # Step 3.1: Extract Text
@@ -110,9 +116,13 @@ def extract_context(text, keyword, window=500):
 # Step 4: Classification for now (demo purposes)
 # 4.1: Using a HuggingFace model (question-answering)
 def infer_location_fromQAModel(context, question="Where is the mtDNA sample from?"):
-    qa = pipeline("question-answering", model="distilbert-base-uncased-distilled-squad")
-    result = qa({"context": context, "question": question})
-    return result["answer"]
 # 4.2: Infer from haplogroup
 # Load pre-trained spaCy model for NER
 try:
@@ -197,14 +207,24 @@ def classify_sample_location(accession):
   keyword, context, location, qa_result, haplo_result = "", "", "", "", ""
   # Step 1: get pubmed id and isolate
   pubmedID, isolate = get_info_from_accession(accession)
   # Step 2: get doi
   doi = get_doi_from_pubmed_id(pubmedID)
   # Step 3: get text
   '''textsToExtract = { "doiLink":"paperText"
                         "file1.pdf":"text1",
                         "file2.doc":"text2",
                         "file3.xlsx":excelText3'''
   textsToExtract = get_paper_text(doi,pubmedID)
   # Step 4: prediction
   outputs[accession] = {}
   outputs[isolate] = {}

     # Return the values, even if they are empty strings
     return pubmedID, isolate
 # Step 2: Get doi link to access the paper
+def get_doi_from_pubmed_id(pubmed_id):
+    cmd = f'{os.environ["HOME"]}/edirect/esummary -db pubmed -id {pubmed_id} -format medline | grep -i "AID"'
     result = subprocess.run(cmd, shell=True, stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
     output = result.stdout
     doi_pattern = r'10\.\d{4,9}/[-._;()/:A-Z0-9]+(?=\s*\[doi\])'
     match = re.search(doi_pattern, output, re.IGNORECASE)
+    if match:
+        return match.group(0)
+    else:
+        return None  # or raise an Exception with a helpful message
 # Step 3: Extract Text: Get the paper (html text), sup. materials (pdf, doc, excel) and do text-preprocessing
 # Step 3.1: Extract Text
 # Step 4: Classification for now (demo purposes)
 # 4.1: Using a HuggingFace model (question-answering)
 def infer_location_fromQAModel(context, question="Where is the mtDNA sample from?"):
+    try:
+        qa = pipeline("question-answering", model="distilbert-base-uncased-distilled-squad")
+        result = qa({"context": context, "question": question})
+        return result.get("answer", "Unknown")
+    except Exception as e:
+        return f"Error: {str(e)}"
 # 4.2: Infer from haplogroup
 # Load pre-trained spaCy model for NER
 try:
   keyword, context, location, qa_result, haplo_result = "", "", "", "", ""
   # Step 1: get pubmed id and isolate
   pubmedID, isolate = get_info_from_accession(accession)
+  if not pubmedID:
+    return {"error": f"Could not retrieve PubMed ID for accession {accession}"}
+  if not isolate:
+    isolate = "UNKNOWN_ISOLATE"
   # Step 2: get doi
   doi = get_doi_from_pubmed_id(pubmedID)
+  if not doi:
+    return {"error": "DOI not found for this accession. Cannot fetch paper or context."}
   # Step 3: get text
   '''textsToExtract = { "doiLink":"paperText"
                         "file1.pdf":"text1",
                         "file2.doc":"text2",
                         "file3.xlsx":excelText3'''
   textsToExtract = get_paper_text(doi,pubmedID)
+  if not textsToExtract:
+    return {"error": f"No texts extracted for DOI {doi}"}
   # Step 4: prediction
   outputs[accession] = {}
   outputs[isolate] = {}