Spaces:

broadfield-dev
/

RSS_News

Runtime error

App Files Files Community

broadfield-dev commited on Feb 22

Commit

15033cb

verified ·

1 Parent(s): 2aa963e

Update rss_processor.py

Browse files

Files changed (1) hide show

rss_processor.py +33 -4

rss_processor.py CHANGED Viewed

@@ -35,6 +35,9 @@ vector_db = Chroma(
     collection_name=COLLECTION_NAME
 )
 def fetch_rss_feeds():
     articles = []
     seen_keys = set()
@@ -51,13 +54,39 @@ def fetch_rss_feeds():
                     break
                 title = entry.get("title", "No Title").strip()
                 link = entry.get("link", "").strip()
-                description = entry.get("summary", entry.get("description", "No Description"))
-                published = entry.get("published", "Unknown Date").strip()
                 key = f"{title}|{link}|{published}"
                 if key not in seen_keys:
                     seen_keys.add(key)
-                    image = (entry.get("media_content", [{}])[0].get("url") or
-                             entry.get("media_thumbnail", [{}])[0].get("url") or "svg")
                     articles.append({
                         "title": title,
                         "link": link,

     collection_name=COLLECTION_NAME
 )
+from datetime import datetime
+import dateutil.parser  # Add this dependency: pip install python-dateutil
 def fetch_rss_feeds():
     articles = []
     seen_keys = set()
                     break
                 title = entry.get("title", "No Title").strip()
                 link = entry.get("link", "").strip()
+                description = entry.get("summary", entry.get("description", "No Description")).strip()
+                # Try multiple date fields and parse flexibly
+                published = "Unknown Date"
+                for date_field in ["published", "updated", "created"]:
+                    if date_field in entry:
+                        try:
+                            parsed_date = dateutil.parser.parse(entry[date_field])
+                            published = parsed_date.strftime("%Y-%m-%d %H:%M:%S")
+                            break
+                        except (ValueError, TypeError) as e:
+                            logger.debug(f"Failed to parse {date_field} '{entry[date_field]}': {e}")
+                            continue
                 key = f"{title}|{link}|{published}"
                 if key not in seen_keys:
                     seen_keys.add(key)
+                    # Try multiple image sources
+                    image = "svg"  # Default fallback
+                    for img_source in [
+                        lambda e: e.get("media_content", [{}])[0].get("url"),
+                        lambda e: e.get("media_thumbnail", [{}])[0].get("url"),
+                        lambda e: e.get("enclosure", {}).get("url"),
+                        lambda e: next((lnk.get("href") for lnk in e.get("links", []) if lnk.get("type", "").startswith("image")), None),
+                    ]:
+                        try:
+                            img = img_source(entry)
+                            if img:
+                                image = img
+                                break
+                        except (IndexError, AttributeError, TypeError):
+                            continue
                     articles.append({
                         "title": title,
                         "link": link,