Spaces:

broadfield-dev
/

RSS_News

Runtime error

App Files Files Community

broadfield-dev commited on Feb 22

Commit

4f97b8a

verified ·

1 Parent(s): bc16436

Update rss_processor.py

Browse files

Files changed (1) hide show

rss_processor.py +30 -3

rss_processor.py CHANGED Viewed

@@ -73,9 +73,36 @@ def fetch_rss_feeds():
     return articles
 def categorize_feed(url):
-    # (Unchanged, keeping your existing categorization logic)
-    # ...
 def process_and_store_articles(articles):
     documents = []
     existing_ids = set(vector_db.get()["ids"])  # Get existing document IDs to avoid duplicates

     return articles
 def categorize_feed(url):
+    if "nature" in url or "science.org" in url or "arxiv.org" in url or "plos.org" in url or "annualreviews.org" in url or "journals.uchicago.edu" in url or "jneurosci.org" in url or "cell.com" in url or "nejm.org" in url or "lancet.com" in url:
+        return "Academic Papers"
+    elif "reuters.com/business" in url or "bloomberg.com" in url or "ft.com" in url or "marketwatch.com" in url or "cnbc.com" in url or "foxbusiness.com" in url or "wsj.com" in url or "bworldonline.com" in url or "economist.com" in url or "forbes.com" in url:
+        return "Business"
+    elif "investing.com" in url or "cnbc.com/market" in url or "marketwatch.com/market" in url or "fool.co.uk" in url or "zacks.com" in url or "seekingalpha.com" in url or "barrons.com" in url or "yahoofinance.com" in url:
+        return "Stocks & Markets"
+    elif "whitehouse.gov" in url or "state.gov" in url or "commerce.gov" in url or "transportation.gov" in url or "ed.gov" in url or "dol.gov" in url or "justice.gov" in url or "federalreserve.gov" in url or "occ.gov" in url or "sec.gov" in url or "bls.gov" in url or "usda.gov" in url or "gao.gov" in url or "cbo.gov" in url or "fema.gov" in url or "defense.gov" in url or "hhs.gov" in url or "energy.gov" in url or "interior.gov" in url:
+        return "Federal Government"
+    elif "weather.gov" in url or "metoffice.gov.uk" in url or "accuweather.com" in url or "weatherunderground.com" in url or "noaa.gov" in url or "wunderground.com" in url or "climate.gov" in url or "ecmwf.int" in url or "bom.gov.au" in url:
+        return "Weather"
+    elif "data.worldbank.org" in url or "imf.org" in url or "un.org" in url or "oecd.org" in url or "statista.com" in url or "kff.org" in url or "who.int" in url or "cdc.gov" in url or "bea.gov" in url or "census.gov" in url or "fdic.gov" in url:
+        return "Data & Statistics"
+    elif "nasa" in url or "spaceweatherlive" in url or "space" in url or "universetoday" in url or "skyandtelescope" in url or "esa" in url:
+        return "Space"
+    elif "sciencedaily" in url or "quantamagazine" in url or "smithsonianmag" in url or "popsci" in url or "discovermagazine" in url or "scientificamerican" in url or "newscientist" in url or "livescience" in url or "atlasobscura" in url:
+        return "Science"
+    elif "wired" in url or "techcrunch" in url or "arstechnica" in url or "gizmodo" in url or "theverge" in url:
+        return "Tech"
+    elif "horoscope" in url or "astrostyle" in url:
+        return "Astrology"
+    elif "cnn_allpolitics" in url or "bbci.co.uk/news/politics" in url or "reuters.com/arc/outboundfeeds/newsletter-politics" in url or "politico.com/rss/politics" in url or "thehill" in url:
+        return "Politics"
+    elif "weather" in url or "swpc.noaa.gov" in url or "foxweather" in url:
+        return "Earth Weather"
+    elif "vogue" in url:
+        return "Lifestyle"
+    elif "phys.org" in url or "aps.org" in url or "physicsworld" in url:
+        return "Physics"
+    return "Uncategorized"
 def process_and_store_articles(articles):
     documents = []
     existing_ids = set(vector_db.get()["ids"])  # Get existing document IDs to avoid duplicates