Spaces:

Ribot
/

PodMagic

Running

App Files Files Community

Ribot commited on 15 days ago

Commit

c77e282

verified ·

1 Parent(s): 0a6bdb5

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -39

app.py CHANGED Viewed

@@ -1,55 +1,42 @@
 import gradio as gr
 import requests
-from bs4 import BeautifulSoup
 import os
 import zipfile
 import tempfile
-import re
 from urllib.parse import urljoin
 def process_url(url):
     try:
-        headers = {
-            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
-        }
         response = requests.get(url, headers=headers)
         response.raise_for_status()
-    except requests.RequestException as e:
-        return None, f"Erreur lors de la récupération de la page : {e}"
-    soup = BeautifulSoup(response.text, 'html.parser')
     mp3_links = []
-    # Recherche dans les balises audio et les divs de podcast
-    for audio_tag in soup.find_all('audio'):
-        source = audio_tag.find('source')
-        if source and 'src' in source.attrs:
-            mp3_url = source['src']
-            if '.mp3' in mp3_url:
-                absolute_url = urljoin(response.url, mp3_url.split('?')[0])  # Nettoyer l'URL
-                mp3_links.append(absolute_url)
-    # Recherche alternative dans les données JSON
-    script_tags = soup.find_all('script', type='application/ld+json')
-    for script in script_tags:
-        content = script.string
-        if content and '"episode"' in content:
-            matches = re.findall(r'"contentUrl"\s*:\s*"([^"]+\.mp3[^"]*)"', content)
-            for match in matches:
-                absolute_url = urljoin(response.url, match.split('?')[0])
-                mp3_links.append(absolute_url)
-    # Suppression des doublons
-    mp3_links = list(dict.fromkeys(mp3_links))
     if not mp3_links:
-        return None, "Aucun lien MP3 trouvé - Structure de page non reconnue"
     temp_dir = tempfile.mkdtemp()
     filenames = []
-    for idx, mp3_url in enumerate(mp3_links, start=1):
         try:
             filename = f"{idx:02d}_{os.path.basename(mp3_url).split('?')[0]}"
             filepath = os.path.join(temp_dir, filename)
@@ -58,16 +45,18 @@ def process_url(url):
                 r.raise_for_status()
                 with open(filepath, 'wb') as f:
                     for chunk in r.iter_content(chunk_size=8192):
-                        f.write(chunk)
             filenames.append(filepath)
         except Exception as e:
-            print(f"Erreur sur {mp3_url}: {str(e)}")
             continue
     if not filenames:
-        return None, "Échec du téléchargement des fichiers"
-    zip_path = os.path.join(temp_dir, 'podcast.zip')
     with zipfile.ZipFile(zip_path, 'w') as zipf:
         for file in filenames:
             zipf.write(file, arcname=os.path.basename(file))
@@ -82,13 +71,13 @@ def download_podcast(url):
 iface = gr.Interface(
     fn=download_podcast,
-    inputs=gr.Textbox(label="URL du podcast Radio France", placeholder="https://www.radiofrance.fr/..."),
-    outputs=gr.File(label="Télécharger les épisodes"),
-    title="Téléchargeur Radio France",
     examples=[[
         "https://www.radiofrance.fr/franceculture/podcasts/serie-le-secret-de-la-licorne-les-aventures-de-tintin"
     ]],
-    description="Collez ici l'URL d'une série de podcasts Radio France pour récupérer tous les épisodes MP3"
 )
 iface.launch()

 import gradio as gr
 import requests
+import re
 import os
 import zipfile
 import tempfile
 from urllib.parse import urljoin
 def process_url(url):
     try:
+        headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'}
         response = requests.get(url, headers=headers)
         response.raise_for_status()
+    except Exception as e:
+        return None, f"Erreur de connexion : {str(e)}"
+    # Recherche approfondie dans les scripts
     mp3_links = []
+    pattern = r'(?:contentUrl|url)"\s*:\s*"([^"]+?\.mp3)(?:[^"]*)"'  # Capture les URLs .mp3 dans les objets JS
+    matches = re.findall(pattern, response.text)
+    for match in matches:
+        # Nettoyage de l'URL
+        clean_url = match.split('";')[0] if '";' in match else match
+        absolute_url = urljoin(response.url, clean_url)
+        mp3_links.append(absolute_url)
+    # Dédoublonnage tout en conservant l'ordre
+    seen = set()
+    mp3_links = [x for x in mp3_links if not (x in seen or seen.add(x))]
     if not mp3_links:
+        return None, "Aucun lien MP3 détecté dans le code source"
+    # Téléchargement des fichiers
     temp_dir = tempfile.mkdtemp()
     filenames = []
+    for idx, mp3_url in enumerate(mp3_links, 1):
         try:
             filename = f"{idx:02d}_{os.path.basename(mp3_url).split('?')[0]}"
             filepath = os.path.join(temp_dir, filename)
                 r.raise_for_status()
                 with open(filepath, 'wb') as f:
                     for chunk in r.iter_content(chunk_size=8192):
+                        if chunk:
+                            f.write(chunk)
             filenames.append(filepath)
         except Exception as e:
+            print(f"Échec du téléchargement {mp3_url} : {str(e)}")
             continue
     if not filenames:
+        return None, "Échec de tous les téléchargements"
+    # Création du ZIP
+    zip_path = os.path.join(temp_dir, 'episodes.zip')
     with zipfile.ZipFile(zip_path, 'w') as zipf:
         for file in filenames:
             zipf.write(file, arcname=os.path.basename(file))
 iface = gr.Interface(
     fn=download_podcast,
+    inputs=gr.Textbox(label="URL Radio France", placeholder="Collez l'URL ici..."),
+    outputs=gr.File(label="Épisodes téléchargés"),
     examples=[[
         "https://www.radiofrance.fr/franceculture/podcasts/serie-le-secret-de-la-licorne-les-aventures-de-tintin"
     ]],
+    title="Extracteur MP3 Radio France",
+    description="Téléchargez les épisodes MP3 des podcasts Radio France directement depuis l'URL de la série"
 )
 iface.launch()