Spaces:

drvikasgaur
/

Pubmed-search-app

Sleeping

App Files Files Community

drvikasgaur commited on May 17

Commit

e8b239b

verified ·

1 Parent(s): 65338ed

Update app.py

Browse files

Files changed (1) hide show

app.py +117 -118

app.py CHANGED Viewed

@@ -5,102 +5,90 @@ from docx import Document
 from datetime import datetime
 from xml.etree import ElementTree as ET
-# Function to fetch PubMed articles
 def fetch_pubmed_articles(query, max_results, page, sort_by, journal_filter, min_year, max_year):
-    base_url = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi"
-    api_key = ""  # Optional
-    params = {
-        "db": "pubmed",
-        "term": query,
-        "retmax": max_results,
-        "retstart": max_results * (page - 1),
-        "retmode": "json",
-        "api_key": api_key
-    }
-    response = requests.get(base_url, params=params)
-    if response.status_code != 200:
-        return f"❌ Error: {response.status_code}", None, None
-    id_list = response.json().get("esearchresult", {}).get("idlist", [])
-    if not id_list:
-        return "❌ No results found.", None, None
-    ids = ",".join(id_list)
-    fetch_url = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi"
-    fetch_params = {
-        "db": "pubmed",
-        "id": ids,
-        "retmode": "xml",
-        "api_key": api_key
-    }
-    fetch_response = requests.get(fetch_url, params=fetch_params)
-    if fetch_response.status_code != 200:
-        return f"❌ Error fetching details.", None, None
-    root = ET.fromstring(fetch_response.content)
-    articles = []
-    for article in root.findall(".//PubmedArticle"):
-        try:
-            title = article.findtext(".//ArticleTitle", default="No Title")
-            abstract = " ".join([abst.text for abst in article.findall(".//AbstractText") if abst.text])
-            journal = article.findtext(".//Journal/Title", default="No Journal")
-            year = article.findtext(".//PubDate/Year")
-            pmid = article.findtext(".//PMID", default="")
-            year = int(year) if year and year.isdigit() else None
-            articles.append({
-                "Title": title,
-                "Abstract": abstract,
-                "Journal": journal,
-                "Year": year,
-                "PMID": pmid
-            })
-        except Exception:
-            continue
-    df = pd.DataFrame(articles)
-    if df.empty:
-        return "❌ No results could be parsed.", None, None
-    # Filtering
-    if journal_filter:
-        df = df[df["Journal"].str.contains(journal_filter, case=False, na=False)]
-    if min_year is not None:
-        df = df[df["Year"] >= min_year]
-    if max_year is not None:
-        df = df[df["Year"] <= max_year]
-    if df.empty:
-        return "❌ No results matched filters.", None, None
-    # Sorting
-    if sort_by == "Year":
-        df = df.sort_values(by="Year", ascending=False)
-    elif sort_by == "Title":
-        df = df.sort_values(by="Title", ascending=True)
-    elif sort_by == "Journal":
-        df = df.sort_values(by="Journal", ascending=True)
-    # Markdown rendering
-    result_text = ""
-    for _, row in df.iterrows():
-        pmid_url = f"https://pubmed.ncbi.nlm.nih.gov/{row['PMID']}/"
-        result_text += f"### [{row['Title']}]({pmid_url})\n"
-        result_text += f"**Journal:** {row['Journal']}  \n"
-        result_text += f"**Year:** {row['Year']}  \n"
-        result_text += f"**Abstract:** {row['Abstract']}\n\n---\n"
-    return "✅ Search complete!", result_text, df
-# Export results to file
 def export_results(df, file_type):
-    now = datetime.now().strftime("%Y%m%d_%H%M%S")
-    if df is None or df.empty:
         return None
     if file_type == "CSV":
         path = f"pubmed_results_{now}.csv"
         df.to_csv(path, index=False)
@@ -110,7 +98,7 @@ def export_results(df, file_type):
         doc = Document()
         doc.add_heading("PubMed Search Results", 0)
         for _, row in df.iterrows():
-            doc.add_heading(row["Title"], level=1)
             doc.add_paragraph(f"Journal: {row['Journal']}")
             doc.add_paragraph(f"Year: {row['Year']}")
             doc.add_paragraph(f"PMID: {row['PMID']}")
@@ -120,46 +108,57 @@ def export_results(df, file_type):
         return path
     return None
-# App UI
-with gr.Blocks() as app:
-    gr.Markdown("## 🔬 PubMed Search Tool\nEnter your biomedical search query below.")
-    with gr.Row():
-        query_input = gr.Textbox(label="Search Query", placeholder="e.g., brain inflammation", lines=2)
-        max_results_input = gr.Number(label="Max Results", value=20)
-        page_input = gr.Number(label="Page Number", value=1)
     with gr.Row():
-        sort_input = gr.Dropdown(["Year", "Title", "Journal"], value="Year", label="Sort By")
-        journal_filter_input = gr.Textbox(label="Journal Filter (optional)")
-        min_year_input = gr.Number(label="Min Year (optional)", value=2000)
-        max_year_input = gr.Number(label="Max Year (optional)", value=2025)
-    status_output = gr.Markdown()
-    markdown_output = gr.Markdown()
-    table_output = gr.Dataframe()
-    df_state = gr.State()
     def run_search(query, max_results, page, sort_by, journal_filter, min_year, max_year):
-        status_output.update("🔄 Searching PubMed...")
-        status, md, df = fetch_pubmed_articles(query, max_results, page, sort_by, journal_filter, min_year, max_year)
         return status, md, df, df
-    search_button = gr.Button("🔍 Search PubMed")
     search_button.click(
         fn=run_search,
         inputs=[query_input, max_results_input, page_input, sort_input, journal_filter_input, min_year_input, max_year_input],
         outputs=[status_output, markdown_output, table_output, df_state]
     )
-    with gr.Row():
-        export_csv_button = gr.Button("⬇️ Export CSV")
-        export_docx_button = gr.Button("⬇️ Export DOCX")
-        export_csv_output = gr.File()
-        export_docx_output = gr.File()
     export_csv_button.click(lambda df: export_results(df, "CSV"), inputs=[df_state], outputs=[export_csv_output])
     export_docx_button.click(lambda df: export_results(df, "DOCX"), inputs=[df_state], outputs=[export_docx_output])
 app.launch()

 from datetime import datetime
 from xml.etree import ElementTree as ET
+# 1. Function to fetch PubMed articles
 def fetch_pubmed_articles(query, max_results, page, sort_by, journal_filter, min_year, max_year):
+    if not query or query.strip() == "":
+        return "❌ Please enter a search query.", "", pd.DataFrame()
+    try:
+        base_url = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi"
+        params = {
+            "db": "pubmed",
+            "term": query,
+            "retmax": int(max_results),
+            "retstart": int(max_results) * (int(page) - 1),
+            "retmode": "json"
+        }
+        response = requests.get(base_url, params=params, timeout=15)
+        if response.status_code != 200:
+            return f"❌ Error: {response.status_code}", "", pd.DataFrame()
+        id_list = response.json().get("esearchresult", {}).get("idlist", [])
+        if not id_list:
+            return "❌ No results found.", "", pd.DataFrame()
+        ids = ",".join(id_list)
+        fetch_url = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi"
+        fetch_params = {
+            "db": "pubmed",
+            "id": ids,
+            "retmode": "xml",
+        }
+        fetch_response = requests.get(fetch_url, params=fetch_params, timeout=15)
+        if fetch_response.status_code != 200:
+            return f"❌ Error fetching details.", "", pd.DataFrame()
+        root = ET.fromstring(fetch_response.content)
+        articles = []
+        for article in root.findall(".//PubmedArticle"):
+            try:
+                title = article.findtext(".//ArticleTitle", default="No Title")
+                abstract = " ".join([abst.text for abst in article.findall(".//AbstractText") if abst.text])
+                journal = article.findtext(".//Journal/Title", default="No Journal")
+                year = article.findtext(".//PubDate/Year")
+                pmid = article.findtext(".//PMID", default="")
+                year = int(year) if year and year.isdigit() else None
+                articles.append({
+                    "Title": title,
+                    "Abstract": abstract,
+                    "Journal": journal,
+                    "Year": year,
+                    "PMID": pmid
+                })
+            except Exception:
+                continue
+        df = pd.DataFrame(articles)
+        if df.empty:
+            return "❌ No results could be parsed.", "", pd.DataFrame()
+        # Filter
+        if journal_filter:
+            df = df[df["Journal"].str.contains(journal_filter, case=False, na=False)]
+        if min_year is not None and str(min_year).isdigit():
+            df = df[df["Year"] >= int(min_year)]
+        if max_year is not None and str(max_year).isdigit():
+            df = df[df["Year"] <= int(max_year)]
+        if df.empty:
+            return "❌ No results matched your filters.", "", pd.DataFrame()
+        # Sort
+        if sort_by == "Year":
+            df = df.sort_values(by="Year", ascending=False, na_position='last')
+        elif sort_by == "Title":
+            df = df.sort_values(by="Title", ascending=True, na_position='last')
+        elif sort_by == "Journal":
+            df = df.sort_values(by="Journal", ascending=True, na_position='last')
+        # Markdown rendering
+        result_text = f"**Showing {len(df)} results:**\n\n"
+        for _, row in df.iterrows():
+            pmid_url = f"https://pubmed.ncbi.nlm.nih.gov/{row['PMID']}/"
+            result_text += f"#### [{row['Title']}]({pmid_url})\n"
+            result_text += f"**Journal:** {row['Journal']}  \n"
+            result_text += f"**Year:** {row['Year']}  \n"
+            result_text += f"**Abstract:** {row['Abstract']}\n\n---\n"
+        return "✅ Search complete!", result_text, df.reset_index(drop=True)
+    except Exception as e:
+        return f"❌ Error: {str(e)}", "", pd.DataFrame()
+# 2. Export results to file
 def export_results(df, file_type):
+    if df is None or len(df) == 0:
         return None
+    now = datetime.now().strftime("%Y%m%d_%H%M%S")
     if file_type == "CSV":
         path = f"pubmed_results_{now}.csv"
         df.to_csv(path, index=False)
         doc = Document()
         doc.add_heading("PubMed Search Results", 0)
         for _, row in df.iterrows():
+            doc.add_heading(str(row["Title"]), level=1)
             doc.add_paragraph(f"Journal: {row['Journal']}")
             doc.add_paragraph(f"Year: {row['Year']}")
             doc.add_paragraph(f"PMID: {row['PMID']}")
         return path
     return None
+# 3. Gradio Interface
+with gr.Blocks(theme="soft") as app:
+    gr.Markdown("""
+    # 🔬 PubMed Article Search Tool
+    **Instructions:**
+    1. Enter your biomedical search query (e.g., `brain inflammation`) in the Search Query box.
+    2. Adjust other filters (journal, year, sort) as needed.
+    3. Click **Search PubMed** to retrieve results.
+    4. Export results to CSV or DOCX after the search.
+    ---
+    """)
     with gr.Row():
+        with gr.Column():
+            query_input = gr.Textbox(label="Search Query", placeholder="e.g., brain inflammation", lines=2)
+            max_results_input = gr.Number(label="Max Results (1-100)", value=20, minimum=1, maximum=100)
+            page_input = gr.Number(label="Page Number", value=1, minimum=1)
+            sort_input = gr.Dropdown(["Year", "Title", "Journal"], value="Year", label="Sort By")
+            journal_filter_input = gr.Textbox(label="Journal Filter (optional)")
+            min_year_input = gr.Number(label="Min Year (optional)", value=2000, minimum=1800, maximum=2100)
+            max_year_input = gr.Number(label="Max Year (optional)", value=2025, minimum=1800, maximum=2100)
+            search_button = gr.Button("🔍 Search PubMed", elem_id="search-btn")
+            status_output = gr.Markdown(value="")
+        with gr.Column():
+            markdown_output = gr.Markdown(value="Results will appear here.")
+            table_output = gr.DataFrame(value=pd.DataFrame(), label="Results Table", visible=True, interactive=False)
+            df_state = gr.State(value=pd.DataFrame())
+    with gr.Row():
+        export_csv_button = gr.Button("⬇️ Export CSV")
+        export_docx_button = gr.Button("⬇️ Export DOCX")
+        export_csv_output = gr.File(label="Download CSV")
+        export_docx_output = gr.File(label="Download DOCX")
+    # 4. Logic to control buttons and flow
     def run_search(query, max_results, page, sort_by, journal_filter, min_year, max_year):
+        status, md, df = fetch_pubmed_articles(
+            query, max_results, page, sort_by, journal_filter, min_year, max_year
+        )
         return status, md, df, df
     search_button.click(
         fn=run_search,
         inputs=[query_input, max_results_input, page_input, sort_input, journal_filter_input, min_year_input, max_year_input],
         outputs=[status_output, markdown_output, table_output, df_state]
     )
     export_csv_button.click(lambda df: export_results(df, "CSV"), inputs=[df_state], outputs=[export_csv_output])
     export_docx_button.click(lambda df: export_results(df, "DOCX"), inputs=[df_state], outputs=[export_docx_output])
 app.launch()