Spaces:

euler314
/

craw_web

Running

App Files Files Community

euler314 commited on Feb 15

Commit

940f220

verified ·

1 Parent(s): f8f469c

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -12

app.py CHANGED Viewed

@@ -1,3 +1,8 @@
 import os
 import subprocess
 from playwright.async_api import async_playwright, TimeoutError as PlaywrightTimeoutError
@@ -8,7 +13,6 @@ import re
 from pathlib import Path
 from io import BytesIO
 import random
-import streamlit as st
 from bs4 import BeautifulSoup
 from PyPDF2 import PdfReader
 import zipfile
@@ -21,33 +25,31 @@ import spacy
 import spacy.cli
 from spacy.language import Language
-# Register a dummy factory under the exact key that the transformer model expects.
 @Language.factory("spacy-curated-transformers_RobertaTransformer_v1")
 def dummy_roberta_transformer(nlp, name):
-    # This dummy component simply passes the Doc through.
     def dummy(doc):
         return doc
     return dummy
-# Try to load the transformer-based model.
 @st.cache_resource
 def load_nlp_model():
     try:
-        nlp_model = spacy.load("en_core_web_trf")
-    except OSError:
-        st.write("Model en_core_web_trf not found. Downloading it now...")
-        spacy.cli.download("en_core_web_trf")
         try:
-            nlp_model = spacy.load("en_core_web_trf")
-        except Exception as e:
-            st.error(f"Error loading model after download: {e}")
-            st.write("Falling back to en_core_web_sm...")
             spacy.cli.download("en_core_web_sm")
             nlp_model = spacy.load("en_core_web_sm")
     return nlp_model
 nlp_model = load_nlp_model()
 # Also load SentenceTransformer for semantic re-ranking.
 from sentence_transformers import SentenceTransformer, util
 @st.cache_resource

+import streamlit as st
+# Set page config as the very first Streamlit command
+st.set_page_config(page_title="Advanced File Downloader", layout="wide")
+# Now import all other libraries
 import os
 import subprocess
 from playwright.async_api import async_playwright, TimeoutError as PlaywrightTimeoutError
 from pathlib import Path
 from io import BytesIO
 import random
 from bs4 import BeautifulSoup
 from PyPDF2 import PdfReader
 import zipfile
 import spacy.cli
 from spacy.language import Language
 @Language.factory("spacy-curated-transformers_RobertaTransformer_v1")
 def dummy_roberta_transformer(nlp, name):
     def dummy(doc):
         return doc
     return dummy
 @st.cache_resource
 def load_nlp_model():
     try:
         try:
+            nlp_model = spacy.load("en_core_web_sm")
+        except OSError:
+            st.write("Model en_core_web_sm not found. Downloading it now...")
             spacy.cli.download("en_core_web_sm")
             nlp_model = spacy.load("en_core_web_sm")
+    except Exception as e:
+        st.error(f"Error loading model: {e}")
+        return None
     return nlp_model
+# Load models after page config
 nlp_model = load_nlp_model()
 # Also load SentenceTransformer for semantic re-ranking.
 from sentence_transformers import SentenceTransformer, util
 @st.cache_resource