Spaces:

wuhp
/

internetscrape

Sleeping

App Files Files Community

wuhp commited on Jul 18

Commit

373adae

verified ·

1 Parent(s): 8f43a39

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -15

app.py CHANGED Viewed

@@ -6,6 +6,7 @@ import subprocess
 import json
 import re
 from bs4 import BeautifulSoup
 # --- News-station filter ---
 NEWS_FILTER = [
@@ -45,7 +46,6 @@ def extract_ffprobe_metadata(url_or_path):
     ]
     out = subprocess.check_output(cmd)
     md = json.loads(out)
-    # compute a human-readable FPS for the first video stream
     for stream in md.get("streams", []):
         if stream.get("codec_type") == "video":
             avg_fr = stream.get("avg_frame_rate", "")
@@ -56,7 +56,7 @@ def extract_ffprobe_metadata(url_or_path):
             break
     return md
-# --- Scrape basic page metadata (title + og: tags) ---
 def fetch_page_metadata(url):
     try:
         resp = requests.get(url, timeout=5)
@@ -76,7 +76,17 @@ def fetch_clean_videos(keywords, api_key, scan_enabled):
     # build IA query
     query = " OR ".join(kw.strip().replace(" ", "+") for kw in keywords.split(","))
     ia_query = f"mediatype:(movies) AND ({query})"
-    results = list(search_items(ia_query))[:50]
     clean_urls = []
     for res in results:
@@ -86,7 +96,11 @@ def fetch_clean_videos(keywords, api_key, scan_enabled):
             continue
         identifier = res["identifier"]
-        item = get_item(identifier)
         for f in item.files:
             name = f.get("name", "").lower()
             # include common video file extensions
@@ -134,13 +148,8 @@ with gr.Blocks() as demo:
                 item = get_item(identifier)
                 raw_ia["metadata"] = item.metadata
                 raw_ia["files"] = [
-                    {
-                        "name": f.get("name"),
-                        "format": f.get("format"),
-                        "size": f.get("size"),
-                        "md5": f.get("md5"),
-                        **{k: v for k, v in f.items() if k not in ("name", "format", "size", "md5")}
-                    }
                     for f in item.files
                 ]
             except Exception:
@@ -159,13 +168,13 @@ with gr.Blocks() as demo:
         source_url = None
         meta = raw_ia.get("metadata", {})
-        # check explicit metadata fields
         for key, val in meta.items():
             if key.lower() in ("source", "originalurl"):
                 source_url = val[0] if isinstance(val, list) else val
                 break
-        # fallback: external-identifier
         if not source_url:
             for key, val in meta.items():
                 if key.lower().startswith("external-identifier"):
@@ -178,14 +187,13 @@ with gr.Blocks() as demo:
                         source_url = f"https://vimeo.com/{vid}"
                     break
-        # last resort: first URL in description
         if not source_url:
             desc = meta.get("description", "")
             found = re.findall(r"https?://[^\s\"<]+", desc)
             if found:
                 source_url = found[0]
-        # fetch page metadata for the source
         if source_url:
             origins.append(fetch_page_metadata(source_url))

 import json
 import re
 from bs4 import BeautifulSoup
+from requests.exceptions import ReadTimeout
 # --- News-station filter ---
 NEWS_FILTER = [
     ]
     out = subprocess.check_output(cmd)
     md = json.loads(out)
     for stream in md.get("streams", []):
         if stream.get("codec_type") == "video":
             avg_fr = stream.get("avg_frame_rate", "")
             break
     return md
+# --- Scrape basic page metadata ---
 def fetch_page_metadata(url):
     try:
         resp = requests.get(url, timeout=5)
     # build IA query
     query = " OR ".join(kw.strip().replace(" ", "+") for kw in keywords.split(","))
     ia_query = f"mediatype:(movies) AND ({query})"
+    # robust search with retries
+    max_attempts = 3
+    for attempt in range(max_attempts):
+        try:
+            results = list(search_items(ia_query, rows=50))[:50]
+            break
+        except ReadTimeout:
+            if attempt < max_attempts - 1:
+                time.sleep(2 ** attempt)
+            else:
+                results = []
     clean_urls = []
     for res in results:
             continue
         identifier = res["identifier"]
+        try:
+            item = get_item(identifier)
+        except Exception:
+            continue
         for f in item.files:
             name = f.get("name", "").lower()
             # include common video file extensions
                 item = get_item(identifier)
                 raw_ia["metadata"] = item.metadata
                 raw_ia["files"] = [
+                    {"name": f.get("name"), "format": f.get("format"), "size": f.get("size"), "md5": f.get("md5"),
+                    **{k: v for k, v in f.items() if k not in ("name", "format", "size", "md5")}}
                     for f in item.files
                 ]
             except Exception:
         source_url = None
         meta = raw_ia.get("metadata", {})
+        # explicit fields
         for key, val in meta.items():
             if key.lower() in ("source", "originalurl"):
                 source_url = val[0] if isinstance(val, list) else val
                 break
+        # fallback identifiers
         if not source_url:
             for key, val in meta.items():
                 if key.lower().startswith("external-identifier"):
                         source_url = f"https://vimeo.com/{vid}"
                     break
+        # description fallback
         if not source_url:
             desc = meta.get("description", "")
             found = re.findall(r"https?://[^\s\"<]+", desc)
             if found:
                 source_url = found[0]
         if source_url:
             origins.append(fetch_page_metadata(source_url))