Spaces:

broadfield-dev
/

grok_test

Runtime error

App Files Files Community

broadfield-dev commited on Feb 20

Commit

72c3c36

verified ·

1 Parent(s): 6c20801

Update app.py

Browse files

Files changed (1) hide show

app.py +43 -33

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import os
 import subprocess
-from flask import Flask, render_template, request
 from rss_processor import fetch_rss_feeds, process_and_store_articles, vector_db
 import logging
 import time
@@ -26,19 +26,25 @@ def load_feeds_in_background():
 def index():
     # Show all existing articles immediately, even if empty
     try:
-        # Get all documents from Chroma DB
         all_docs = vector_db.get(include=['documents', 'metadatas'])
-        stored_docs = [
-            Document(page_content=doc['documents'], metadata=doc['metadatas'])
-            for doc in all_docs['documents']
-        ]
-        logger.info(f"Found {len(stored_docs)} documents in vector DB")
         # Use a set to ensure unique articles by title, link, and full description hash
         unique_articles = {}
         for doc in stored_docs:
-            title = doc.metadata["title"]
-            link = doc.metadata["link"]
-            description = doc.metadata["original_description"]
             desc_hash = hashlib.md5(description.encode()).hexdigest()
             key = f"{title}|{link}|{desc_hash}"
             if key not in unique_articles:
@@ -46,8 +52,8 @@ def index():
                     "title": title,
                     "link": link,
                     "description": description,
-                    "category": doc.metadata["category"],
-                    "published": doc.metadata["published"],
                     "image": doc.metadata.get("image", "svg"),
                 }
         enriched_articles = list(unique_articles.values())
@@ -73,25 +79,29 @@ def search():
     query = request.form.get('search')
     if query:
         logger.info(f"Processing search query: {query}")
-        results = vector_db.similarity_search(query, k=10)
-        unique_search_articles = {}
-        for doc in results:
-            title = doc.metadata["title"]
-            link = doc.metadata["link"]
-            description = doc.metadata["original_description"]
-            desc_hash = hashlib.md5(description.encode()).hexdigest()
-            key = f"{title}|{link}|{desc_hash}"
-            if key not in unique_search_articles:
-                unique_search_articles[key] = {
-                    "title": title,
-                    "link": link,
-                    "description": description,
-                    "category": doc.metadata["category"],
-                    "published": doc.metadata["published"],
-                    "image": doc.metadata.get("image", "svg"),
-                }
-        enriched_articles = list(unique_search_articles.values())
-        logger.info(f"Search returned {len(enriched_articles)} unique results")
         categorized_articles = {}
         for article in enriched_articles:
@@ -106,9 +116,9 @@ def search():
 @app.route('/check_feeds', methods=['GET'])
 def check_feeds():
     try:
-        # Check if vector DB has new or updated documents
         all_docs = vector_db.get(include=['documents', 'metadatas'])
-        if all_docs['documents']:
             logger.info("Feeds loaded successfully in vector DB")
             return jsonify({"status": "loaded"})
         return jsonify({"status": "loading"}), 202

 import os
 import subprocess
+from flask import Flask, render_template, request, jsonify
 from rss_processor import fetch_rss_feeds, process_and_store_articles, vector_db
 import logging
 import time
 def index():
     # Show all existing articles immediately, even if empty
     try:
+        # Get all documents from Chroma DB using get()
         all_docs = vector_db.get(include=['documents', 'metadatas'])
+        if 'metadatas' in all_docs and all_docs['metadatas']:
+            stored_docs = [
+                Document(page_content=doc['documents'][0] if doc['documents'] else "", metadata=meta)
+                for doc, meta in zip(all_docs['documents'], all_docs['metadatas'])
+            ]
+            logger.info(f"Found {len(stored_docs)} documents in vector DB")
+        else:
+            stored_docs = []
+            logger.warning("No metadata or documents found in vector DB")
         # Use a set to ensure unique articles by title, link, and full description hash
         unique_articles = {}
         for doc in stored_docs:
+            if not doc.metadata:  # Handle potential None metadata
+                continue
+            title = doc.metadata.get("title", "No Title")
+            link = doc.metadata.get("link", "")
+            description = doc.metadata.get("original_description", "No Description")
             desc_hash = hashlib.md5(description.encode()).hexdigest()
             key = f"{title}|{link}|{desc_hash}"
             if key not in unique_articles:
                     "title": title,
                     "link": link,
                     "description": description,
+                    "category": doc.metadata.get("category", "Uncategorized"),
+                    "published": doc.metadata.get("published", "Unknown Date"),
                     "image": doc.metadata.get("image", "svg"),
                 }
         enriched_articles = list(unique_articles.values())
     query = request.form.get('search')
     if query:
         logger.info(f"Processing search query: {query}")
+        try:
+            results = vector_db.similarity_search(query, k=10)
+            unique_search_articles = {}
+            for doc in results:
+                title = doc.metadata.get("title", "No Title")
+                link = doc.metadata.get("link", "")
+                description = doc.metadata.get("original_description", "No Description")
+                desc_hash = hashlib.md5(description.encode()).hexdigest()
+                key = f"{title}|{link}|{desc_hash}"
+                if key not in unique_search_articles:
+                    unique_search_articles[key] = {
+                        "title": title,
+                        "link": link,
+                        "description": description,
+                        "category": doc.metadata.get("category", "Uncategorized"),
+                        "published": doc.metadata.get("published", "Unknown Date"),
+                        "image": doc.metadata.get("image", "svg"),
+                    }
+            enriched_articles = list(unique_search_articles.values())
+            logger.info(f"Search returned {len(enriched_articles)} unique results")
+        except Exception as e:
+            logger.error(f"Error performing search: {e}")
+            enriched_articles = []
         categorized_articles = {}
         for article in enriched_articles:
 @app.route('/check_feeds', methods=['GET'])
 def check_feeds():
     try:
+        # Check if vector DB has any documents
         all_docs = vector_db.get(include=['documents', 'metadatas'])
+        if 'metadatas' in all_docs and all_docs['metadatas']:
             logger.info("Feeds loaded successfully in vector DB")
             return jsonify({"status": "loaded"})
         return jsonify({"status": "loading"}), 202