Spaces:

CosmickVisions
/

Data-Vision

Running

App Files Files Community

CosmickVisions commited on Mar 3

Commit

1170bf0

verified ·

1 Parent(s): 3ea1edc

Update app.py

Browse files

Files changed (1) hide show

app.py +59 -59

app.py CHANGED Viewed

@@ -323,6 +323,64 @@ def prediction_input_form(features, default_values=None):
         input_data[feature] = st.number_input(f"{feature}:", value=default_value)
     return input_data
 # --------------------------
 # Sidebar Navigation
 # --------------------------
@@ -1723,62 +1781,4 @@ elif app_mode == "PDF Analysis":
                     results = perform_semantic_search(search_query, results)
                     st.write("Most relevant documents:")
                     for doc in results[:3]:
-                        st.write(f"📄 {doc['filename']} - Score: {doc['similarity']:.2f}")
-# Enhanced Helper Functions
-def extract_text_from_pdf(pdf_file, use_ocr=False):
-    """Extract text with OCR support"""
-    try:
-        import pdfplumber
-        with pdfplumber.open(pdf_file) as pdf:
-            text = "\n".join([page.extract_text() for page in pdf.pages])
-            if use_ocr or len(text) < 50:  # Fallback to OCR
-                import fitz  # PyMuPDF
-                doc = fitz.open(stream=pdf_file.read(), filetype="pdf")
-                text = ""
-                for page in doc:
-                    text += page.get_text("text")
-                if len(text) < 50:
-                    raise ValueError("Likely scanned document - enable OCR")
-        return text
-    except Exception as e:
-        raise RuntimeError(f"Text extraction failed: {str(e)}")
-def visualize_entities(text):
-    """Create interactive entity visualization"""
-    import spacy
-    from spacy import displacy
-    nlp = spacy.load("en_core_web_sm")
-    doc = nlp(text)
-    html = displacy.render(doc, style="ent", page=True)
-    return html
-def generate_embeddings(text):
-    """Generate document embeddings"""
-    from sentence_transformers import SentenceTransformer
-    model = SentenceTransformer('all-MiniLM-L6-v2')
-    return model.encode(text).tolist()
-def extract_metadata(pdf_file):
-    """Extract PDF metadata"""
-    import fitz
-    doc = fitz.open(stream=pdf_file.read(), filetype="pdf")
-    return {
-        "author": doc.metadata.get("author"),
-        "title": doc.metadata.get("title"),
-        "pages": len(doc),
-        "created": doc.metadata.get("creationDate"),
-        "modified": doc.metadata.get("modDate")
-    }
-def perform_semantic_search(query, docs):
-    """Semantic search using embeddings"""
-    from sentence_transformers import util
-    model = SentenceTransformer('all-MiniLM-L6-v2')
-    query_embedding = model.encode(query)
-    for doc in docs:
-        doc["similarity"] = util.cos_sim(query_embedding, doc["embeddings"]).mean()
-    return sorted(docs, key=lambda x: x["similarity"], reverse=True)

         input_data[feature] = st.number_input(f"{feature}:", value=default_value)
     return input_data
+# Enhanced Helper Functions
+def extract_text_from_pdf(pdf_file, use_ocr=False):
+    """Extract text with OCR support"""
+    try:
+        import pdfplumber
+        with pdfplumber.open(pdf_file) as pdf:
+            text = "\n".join([page.extract_text() for page in pdf.pages])
+            if use_ocr or len(text) < 50:  # Fallback to OCR
+                import fitz  # PyMuPDF
+                doc = fitz.open(stream=pdf_file.read(), filetype="pdf")
+                text = ""
+                for page in doc:
+                    text += page.get_text("text")
+                if len(text) < 50:
+                    raise ValueError("Likely scanned document - enable OCR")
+        return text
+    except Exception as e:
+        raise RuntimeError(f"Text extraction failed: {str(e)}")
+def visualize_entities(text):
+    """Create interactive entity visualization"""
+    import spacy
+    from spacy import displacy
+    nlp = spacy.load("en_core_web_sm")
+    doc = nlp(text)
+    html = displacy.render(doc, style="ent", page=True)
+    return html
+def generate_embeddings(text):
+    """Generate document embeddings"""
+    from sentence_transformers import SentenceTransformer
+    model = SentenceTransformer('all-MiniLM-L6-v2')
+    return model.encode(text).tolist()
+def extract_metadata(pdf_file):
+    """Extract PDF metadata"""
+    import fitz
+    doc = fitz.open(stream=pdf_file.read(), filetype="pdf")
+    return {
+        "author": doc.metadata.get("author"),
+        "title": doc.metadata.get("title"),
+        "pages": len(doc),
+        "created": doc.metadata.get("creationDate"),
+        "modified": doc.metadata.get("modDate")
+    }
+def perform_semantic_search(query, docs):
+    """Semantic search using embeddings"""
+    from sentence_transformers import util
+    model = SentenceTransformer('all-MiniLM-L6-v2')
+    query_embedding = model.encode(query)
+    for doc in docs:
+        doc["similarity"] = util.cos_sim(query_embedding, doc["embeddings"]).mean()
+    return sorted(docs, key=lambda x: x["similarity"], reverse=True)
 # --------------------------
 # Sidebar Navigation
 # --------------------------
                     results = perform_semantic_search(search_query, results)
                     st.write("Most relevant documents:")
                     for doc in results[:3]:
+                        st.write(f"📄 {doc['filename']} - Score: {doc['similarity']:.2f}")