Spaces:

Ribot
/

PodMagic

Sleeping

App Files Files Community

Ribot commited on May 22

Commit

734bffb

verified ·

1 Parent(s): 96682d9

Update app.py

Browse files

Files changed (1) hide show

app.py +87 -107

app.py CHANGED Viewed

@@ -1,113 +1,93 @@
-import subprocess
-import sys
-# Installation automatique des dépendances
-def install(package):
-    subprocess.check_call([sys.executable, "-m", "pip", "install", package])
-try:
-    import gradio as gr
-    import requests
-    import re
-    import os
-    import zipfile
-    from pathlib import Path
-except ImportError:
-    install("gradio")
-    install("requests")
-    import gradio as gr
-    import requests
-    import re
-    import os
-    import zipfile
-    from pathlib import Path
-# Nettoyage du nom de fichier
 def sanitize_filename(name):
-    name = re.sub(r'[\\/*?:"<>|]', "", name)
-    return name.strip().replace(" ", "_")[:100]
-# Extraction des liens MP3 + titres depuis HTML
-def extract_mp3_links_and_titles(html_text):
-    mp3_regex = re.compile(r'https://[^\s"]+?\.mp3')
-    title_regex = re.compile(r'title:\\"([^\\"]+)\\"')
-    urls = mp3_regex.findall(html_text)
-    titles = title_regex.findall(html_text)
-    # Supprimer les doublons d'URL tout en gardant l'ordre
-    seen = set()
-    unique_urls = []
-    for u in urls:
-        if u not in seen:
-            seen.add(u)
-            unique_urls.append(u)
-    # Compléter les titres manquants
-    titles += [""] * (len(unique_urls) - len(titles))
-    return list(zip(unique_urls, titles[:len(unique_urls)]))
-# Fonction principale
-def download_podcasts(url):
     try:
-        response = requests.get(url)
-        response.raise_for_status()
     except Exception as e:
-        return f"Erreur de récupération de la page : {e}", None
-    html_text = response.text
-    mp3_entries = extract_mp3_links_and_titles(html_text)
-    if not mp3_entries:
-        return "Aucun fichier MP3 trouvé sur la page.", None
-    temp_dir = Path("temp_episodes")
-    temp_dir.mkdir(exist_ok=True)
-    zip_path = temp_dir / "episodes_radiofrance.zip"
-    used_filenames = set()
-    with zipfile.ZipFile(zip_path, "w") as zipf:
-        for idx, (mp3_url, title) in enumerate(mp3_entries, 1):
-            base_name = f"{idx:02d}-" + (sanitize_filename(title) if title else "episode")
-            filename = base_name + ".mp3"
-            # Assurer l'unicité du nom de fichier
-            counter = 1
-            while filename in used_filenames:
-                filename = f"{base_name}_{counter}.mp3"
-                counter += 1
-            used_filenames.add(filename)
-            try:
-                print(f"Téléchargement : {mp3_url}")
-                r = requests.get(mp3_url, stream=True)
-                r.raise_for_status()
-                mp3_path = temp_dir / filename
-                with open(mp3_path, "wb") as f:
-                    for chunk in r.iter_content(chunk_size=8192):
-                        f.write(chunk)
-                zipf.write(mp3_path, arcname=filename)
-                mp3_path.unlink()  # Supprime le fichier après ajout au ZIP
-            except Exception as e:
-                print(f"Erreur lors du téléchargement de {mp3_url} : {e}")
-    return "Téléchargement terminé !", str(zip_path)
-# Interface Gradio
-with gr.Blocks() as demo:
-    gr.Markdown("## 🎧 Téléchargeur de podcasts Radio France")
-    with gr.Row():
-        url_input = gr.Textbox(label="URL de la page", placeholder="Collez ici une URL d'une page de podcast")
-    download_btn = gr.Button("Télécharger les MP3 et générer un .zip")
-    status = gr.Textbox(label="Statut")
-    file_output = gr.File(label="Fichier ZIP à télécharger")
-    download_btn.click(download_podcasts, inputs=url_input, outputs=[status, file_output])
-# Lancement (utile pour Hugging Face)
 if __name__ == "__main__":
-    demo.launch()

+import requests
+import re
+import os
+import zipfile
+import tempfile
+import gradio as gr
+from pathlib import Path
+from bs4 import BeautifulSoup
 def sanitize_filename(name):
+    return re.sub(r'[\\/*?:"<>|]', "", name).strip().replace(" ", "_")[:100]
+def extract_episode_links(html_text, base_url):
+    soup = BeautifulSoup(html_text, "html.parser")
+    episodes = []
+    seen_urls = set()
+    # Analyse de chaque bloc d'épisode
+    for audio_tag in soup.find_all("audio"):
+        source = audio_tag.find("source")
+        if source and source.get("src", "").endswith(".mp3"):
+            title = (
+                audio_tag.get("aria-label")
+                or audio_tag.get("title")
+                or source.get("title")
+                or "episode"
+            )
+            url = source["src"]
+            if not url.startswith("http"):
+                url = requests.compat.urljoin(base_url, url)
+            if url not in seen_urls:
+                seen_urls.add(url)
+                episodes.append((title, url))
+    return episodes
+def download_podcast_series(url):
     try:
+        r = requests.get(url, timeout=10)
+        r.raise_for_status()
     except Exception as e:
+        return f"Erreur lors du chargement de la page : {e}", None
+    html_text = r.text
+    episodes = extract_episode_links(html_text, url)
+    if not episodes:
+        return "Aucun épisode audio trouvé sur la page.", None
+    with tempfile.TemporaryDirectory() as temp_dir:
+        zip_path = os.path.join(temp_dir, "podcast.zip")
+        used_filenames = set()
+        with zipfile.ZipFile(zip_path, "w") as zipf:
+            for idx, (title, mp3_url) in enumerate(episodes, 1):
+                base_name = f"{idx:02d}-" + sanitize_filename(title)
+                filename = base_name + ".mp3"
+                # Éviter les doublons de nom
+                count = 1
+                while filename in used_filenames:
+                    filename = f"{base_name}_{count}.mp3"
+                    count += 1
+                used_filenames.add(filename)
+                try:
+                    audio = requests.get(mp3_url, stream=True, timeout=15)
+                    audio.raise_for_status()
+                    temp_mp3_path = os.path.join(temp_dir, filename)
+                    with open(temp_mp3_path, "wb") as f:
+                        for chunk in audio.iter_content(8192):
+                            f.write(chunk)
+                    zipf.write(temp_mp3_path, arcname=filename)
+                except Exception as e:
+                    print(f"Erreur lors du téléchargement de {mp3_url} : {e}")
+        return "Téléchargement terminé !", zip_path
+interface = gr.Interface(
+    fn=download_podcast_series,
+    inputs=gr.Textbox(label="URL du podcast radio (ex: France Culture)", placeholder="https://www.radiofrance.fr/franceculture/podcasts/serie-le-capitaine-fracasse-de-theophile-gautier"),
+    outputs=[
+        gr.Textbox(label="Statut"),
+        gr.File(label="Fichier ZIP des épisodes")
+    ],
+    title="Téléchargeur de Podcast Radio (.mp3)",
+    description="Collez un lien vers une série de podcast Radio France (ex: France Culture). Seuls les fichiers .mp3 correspondant aux épisodes seront extraits et regroupés dans un fichier ZIP téléchargeable.",
+    allow_flagging="never"
+)
 if __name__ == "__main__":
+    interface.launch()