Spaces:

Ribot
/

PodMagic

Running

App Files Files Community

Ribot commited on 15 days ago

Commit

6ca2249

verified ·

1 Parent(s): eeae908

Update app.py

Browse files

Files changed (1) hide show

app.py +56 -68

app.py CHANGED Viewed

@@ -3,82 +3,70 @@ import requests
 from bs4 import BeautifulSoup
 import re
 import os
-from urllib.parse import urlparse
-from zipfile import ZipFile
-def extract_podcast_episodes(url):
-    headers = {"User-Agent": "Mozilla/5.0"}
-    response = requests.get(url, headers=headers)
-    response.raise_for_status()
-    soup = BeautifulSoup(response.text, "html.parser")
-    # Titre principal du podcast (pour filtrer les titres)
-    main_title = soup.find("h1").get_text(strip=True).lower()
-    # Section contenant les épisodes listés explicitement
-    episodes = []
-    for article in soup.select("article"):
-        title_tag = article.find("h3")
-        if not title_tag:
-            continue
-        title = title_tag.get_text(strip=True)
-        if not any(word in title.lower() for word in main_title.split()):
-            continue
-        # Cherche lien MP3 directement dans l'article
-        mp3_url = None
-        for a in article.find_all("a", href=True):
-            if a["href"].endswith(".mp3"):
-                mp3_url = a["href"]
-                break
-        if mp3_url:
-            episodes.append({"title": title, "url": mp3_url})
-    return episodes
-def download_and_zip_episodes(url):
-    episodes = extract_podcast_episodes(url)
-    if not episodes:
-        return "Aucun épisode valide trouvé", None
-    os.makedirs("downloads", exist_ok=True)
-    zip_filename = "episodes_radiofrance.zip"
-    zip_path = os.path.join("downloads", zip_filename)
-    with ZipFile(zip_path, "w") as zipf:
-        for i, episode in enumerate(episodes, start=1):
-            mp3_url = episode["url"]
-            title = episode["title"]
-            ext = os.path.splitext(urlparse(mp3_url).path)[1]
-            filename = f"{i:02d} - {title}{ext}".replace("/", "_")
-            try:
-                mp3_response = requests.get(mp3_url, stream=True)
-                mp3_response.raise_for_status()
-                local_path = os.path.join("downloads", filename)
-                with open(local_path, "wb") as f:
-                    for chunk in mp3_response.iter_content(1024):
-                        f.write(chunk)
-                zipf.write(local_path, arcname=filename)
-                os.remove(local_path)
-            except Exception as e:
-                print(f"Erreur lors du téléchargement de {mp3_url}: {e}")
-    return f"{len(episodes)} épisode(s) téléchargé(s)", zip_path
-iface = gr.Interface(
-    fn=download_and_zip_episodes,
-    inputs=gr.Textbox(label="URL de la page podcast de France Culture"),
-    outputs=[
-        gr.Text(label="Résultat"),
-        gr.File(label="Fichier ZIP")
-    ],
-    title="Téléchargeur de Podcast France Culture",
-    description="Saisissez l’URL d’une série sur France Culture (ex: https://www.radiofrance.fr/franceculture/podcasts/...) pour télécharger uniquement les bons épisodes listés sur la page."
-)
-if __name__ == "__main__":
-    iface.launch()

 from bs4 import BeautifulSoup
 import re
 import os
+import zipfile
+from urllib.parse import urljoin
+from pathlib import Path
+def extract_mp3_links(url):
+    response = requests.get(url)
+    soup = BeautifulSoup(response.content, "html.parser")
+    # Extraire les blocs d’épisodes depuis le HTML
+    episode_blocks = soup.find_all("a", href=True)
+    seen = set()
+    links = []
+    for a in episode_blocks:
+        href = a['href']
+        if href.endswith('.mp3') and 'radiofrance' in href:
+            full_url = href if href.startswith("http") else urljoin(url, href)
+            if full_url not in seen:
+                seen.add(full_url)
+                title = a.get("title") or a.text.strip() or "episode"
+                links.append((full_url, title))
+    return links
+def download_episodes(podcast_url):
+    os.makedirs("downloads", exist_ok=True)
+    mp3_links = extract_mp3_links(podcast_url)
+    if not mp3_links:
+        return None, "Aucun épisode valide trouvé."
+    valid_episodes = []
+    for idx, (mp3_url, title) in enumerate(mp3_links, 1):
+        try:
+            response = requests.get(mp3_url)
+            if response.status_code == 200:
+                safe_title = re.sub(r'[^\w\d-]', '_', title)[:80]
+                filename = f"{idx:02d}_{safe_title}.mp3"
+                filepath = os.path.join("downloads", filename)
+                with open(filepath, "wb") as f:
+                    f.write(response.content)
+                valid_episodes.append(filepath)
+        except Exception as e:
+            print(f"Erreur avec {mp3_url} : {e}")
+    if not valid_episodes:
+        return None, "Aucun fichier mp3 téléchargé."
+    zip_path = "/tmp/episodes_radiofrance.zip"
+    with zipfile.ZipFile(zip_path, 'w') as zipf:
+        for file in valid_episodes:
+            zipf.write(file, arcname=os.path.basename(file))
+    return zip_path, f"{len(valid_episodes)} épisode(s) téléchargé(s) avec succès."
+with gr.Blocks() as app:
+    gr.Markdown("# 🎧 Téléchargeur de Podcasts Radio France")
+    with gr.Row():
+        url_input = gr.Text(label="URL de la série du podcast")
+        launch_btn = gr.Button("Télécharger les épisodes")
+    output_file = gr.File(label="Fichier ZIP")
+    output_message = gr.Textbox(label="Statut")
+    launch_btn.click(fn=download_episodes, inputs=url_input, outputs=[output_file, output_message])
+app.launch()