Spaces:

datenwerkzeuge
/

CDL-Webscraping-Workshop-2025

Sleeping

App Files Files Community

bsenst commited on Dec 16, 2024

Commit

30e2215

1 Parent(s): c850600

remove bash calls

Browse files

Files changed (3) hide show

src/notebooks/Gesetze_im_Internet_Aktualitätendienst.ipynb +0 -0
src/notebooks/quotes_scraper.ipynb +1 -1
src/notebooks/youtube-transcript-extraction.ipynb +290 -1

src/notebooks/Gesetze_im_Internet_Aktualitätendienst.ipynb CHANGED Viewed

The diff for this file is too large to render. See raw diff

src/notebooks/quotes_scraper.ipynb CHANGED Viewed

@@ -39,7 +39,7 @@
    ],
    "source": [
     "# Installieren der benötigten Bibliotheken\n",
-    "! pip install requests beautifulsoup4 pandas"
    ]
   },
   {

    ],
    "source": [
     "# Installieren der benötigten Bibliotheken\n",
+    "# ! pip install requests beautifulsoup4 pandas"
    ]
   },
   {

src/notebooks/youtube-transcript-extraction.ipynb CHANGED Viewed

	@@ -1 +1,290 @@
1	- {"metadata":{"kernelspec":{"language":"python","display_name":"Python 3","name":"python3"},"language_info":{"name":"python","version":"3.10.14","mimetype":"text/x-python","codemirror_mode":{"name":"ipython","version":3},"pygments_lexer":"ipython3","nbconvert_exporter":"python","file_extension":".py"},"kaggle":{"accelerator":"none","dataSources":[],"dockerImageVersionId":30804,"isInternetEnabled":true,"language":"python","sourceType":"notebook","isGpuEnabled":false}},"nbformat_minor":4,"nbformat":4,"cells":[{"cell_type":"code","source":"! pip install pytube youtube-transcript-api reportlab -q","metadata":{"trusted":true,"execution":{"iopub.status.busy":"2024-12-08T19:21:41.981023Z","iopub.execute_input":"2024-12-08T19:21:41.981395Z","iopub.status.idle":"2024-12-08T19:21:56.468283Z","shell.execute_reply.started":"2024-12-08T19:21:41.981364Z","shell.execute_reply":"2024-12-08T19:21:56.466400Z"}},"outputs":[],"execution_count":1},{"cell_type":"code","source":"from pytube import YouTube, Playlist\nfrom youtube_transcript_api import YouTubeTranscriptApi, TranscriptsDisabled, NoTranscriptFound\nfrom reportlab.lib.pagesizes import letter\nfrom reportlab.pdfgen import canvas\nimport os\nimport zipfile","metadata":{"trusted":true,"execution":{"iopub.status.busy":"2024-12-08T19:21:56.470984Z","iopub.execute_input":"2024-12-08T19:21:56.471492Z","iopub.status.idle":"2024-12-08T19:21:56.658038Z","shell.execute_reply.started":"2024-12-08T19:21:56.471442Z","shell.execute_reply":"2024-12-08T19:21:56.656869Z"}},"outputs":[],"execution_count":2},{"cell_type":"code","source":"# Funktion zum Extrahieren des Transkripts\ndef get_transcript_with_language_preference(video_id, preferred_languages=(\"en\", \"de\"), prefer_manual=True):\n \"\"\"\n Extracts a transcript based on the preferred languages.\n If no transcript is found in the preferred languages, it checks available languages.\n \n Args:\n video_id (str): The ID of the YouTube video.\n preferred_languages (tuple): Preferred languages in order of priority.\n prefer_manual (bool): Whether to prefer manually created transcripts over auto-generated ones.\n \n Returns:\n str: The transcript or an error message if not found.\n \"\"\"\n try:\n # Fetch the transcript list for the video\n transcript_list = YouTubeTranscriptApi.list_transcripts(video_id)\n \n # Filter transcripts for preferred languages and filter by manual or auto-generated type\n transcript = None\n for lang in preferred_languages:\n try:\n if prefer_manual:\n transcript = transcript_list.find_transcript([lang]) # Prefer manually created transcripts\n else:\n transcript = transcript_list.find_transcript([lang], filter_types=['generated']) # Prefer auto-generated transcripts\n \n # If a valid transcript is found, break the loop\n if transcript:\n break\n except Exception as e:\n # Continue if no transcript found for this language\n continue\n\n # If no transcript was found in the preferred languages, return available transcripts\n if not transcript:\n available_transcripts = transcript_list\n available_languages = {t.language_code: t.language for t in available_transcripts}\n \n error_message = f\"Kein Transkript in den gewünschten Sprachen {preferred_languages} gefunden.\\n\"\n error_message += \"Verfügbare Sprachen:\\n\"\n error_message += \"\\n\".join([f\"- {code} ({lang})\" for code, lang in available_languages.items()])\n return error_message\n\n # Get the actual transcript text\n transcript_data = transcript.fetch()\n return \"\\n\".join([entry[\"text\"] for entry in transcript_data])\n\n except TranscriptsDisabled:\n return \"Transkripte sind für dieses Video deaktiviert.\"\n except NoTranscriptFound:\n return \"Es wurden keine Transkripte für dieses Video gefunden.\"\n except Exception as e:\n return f\"Allgemeiner Fehler beim Abrufen des Transkripts: {e}\"\n\n# Funktion zum Erstellen eines PDFs\ndef save_transcript_as_pdf_with_pagination(title, transcript):\n \"\"\"\n Speichert ein Transkript als PDF mit Seitenumbrüchen, wenn der Text zu lang ist.\n Args:\n title (str): Der Titel, der als Dateiname verwendet wird.\n transcript (str): Der Text des Transkripts.\n Returns:\n str: Der Name der gespeicherten PDF-Datei.\n \"\"\"\n # Sicheren Dateinamen erstellen\n filename = f\"{title}.pdf\".replace(\"/\", \"_\").replace(\"\\\\\", \"_\")\n\n # PDF-Einstellungen\n c = canvas.Canvas(filename, pagesize=letter)\n width, height = letter\n\n # Schrift- und Layout-Einstellungen\n margin = 50\n line_height = 14\n max_lines_per_page = int((height - 2 * margin) / line_height) - 2 # Platz für Titel und Seitenrand\n\n # Titel schreiben\n c.setFont(\"Helvetica-Bold\", 16)\n c.drawString(margin, height - margin, title)\n\n # Textblock initialisieren\n c.setFont(\"Helvetica\", 12)\n y_position = height - margin - 30 # Platz für Titel\n\n # Text Zeile für Zeile schreiben\n lines = transcript.split(\"\\n\")\n line_count = 0\n\n for line in lines:\n if line_count >= max_lines_per_page: # Neue Seite bei Bedarf\n c.showPage()\n c.setFont(\"Helvetica-Bold\", 16)\n c.drawString(margin, height - margin, title)\n c.setFont(\"Helvetica\", 12)\n y_position = height - margin - 30\n line_count = 0\n \n c.drawString(margin, y_position, line)\n y_position -= line_height\n line_count += 1\n\n # PDF speichern\n c.save()\n return filename","metadata":{"trusted":true,"execution":{"iopub.status.busy":"2024-12-08T19:21:56.659720Z","iopub.execute_input":"2024-12-08T19:21:56.660152Z","iopub.status.idle":"2024-12-08T19:21:56.675204Z","shell.execute_reply.started":"2024-12-08T19:21:56.660092Z","shell.execute_reply":"2024-12-08T19:21:56.674023Z"}},"outputs":[],"execution_count":3},{"cell_type":"code","source":"# Eingabe der URLs\nurls = \"https://www.youtube.com/playlist?list=PLf8HAovJg47MN7bswKf73pffom98Fx8Q8\"\n\npdf_filenames = [] # Liste zur Speicherung der PDF-Dateinamen\n\n# URL-Liste verarbeiten\nurl_list = urls.splitlines()\nfor url in url_list:\n url = url.strip()\n if not url:\n continue\n\n # Playlist-URL oder Video-URL?\n if \"playlist\" in url:\n playlist = Playlist(url)\n video_urls = playlist.video_urls\n else:\n video_urls = [url]\n\n for video_url in video_urls:\n try:\n yt = YouTube(video_url)\n video_id = yt.video_id\n title = video_id\n print(f\"Verarbeite Video: {title}\")\n\n transcript = get_transcript_with_language_preference(video_id)\n\n # Speichern des Transkripts als PDF\n pdf_filename = save_transcript_as_pdf_with_pagination(title, transcript)\n pdf_filenames.append(pdf_filename)\n print(f\"Transkript für '{title}' gespeichert als {pdf_filename}.\")\n\n except Exception as e:\n print(f\"Fehler bei der Verarbeitung von {video_url}: {e}\")\n\n# Erstellen eines ZIP-Archivs\nzip_filename = \"transcripts.zip\"\nwith zipfile.ZipFile(zip_filename, 'w') as zipf:\n for pdf_filename in pdf_filenames:\n zipf.write(pdf_filename)\n os.remove(pdf_filename) # Lösche die PDF-Dateien nach dem Hinzufügen zum ZIP-Archiv\n\nprint(f\"ZIP-Archiv '{zip_filename}' wurde erstellt.\")","metadata":{"trusted":true,"execution":{"iopub.status.busy":"2024-12-08T19:32:38.175463Z","iopub.execute_input":"2024-12-08T19:32:38.175946Z","iopub.status.idle":"2024-12-08T19:32:40.711451Z","shell.execute_reply.started":"2024-12-08T19:32:38.175908Z","shell.execute_reply":"2024-12-08T19:32:40.710172Z"}},"outputs":[{"name":"stdout","text":"Verarbeite Video: B7uzC96-930\nTranskript für 'B7uzC96-930' gespeichert als B7uzC96-930.pdf.\nVerarbeite Video: 4QeKMnd8B7Q\nTranskript für '4QeKMnd8B7Q' gespeichert als 4QeKMnd8B7Q.pdf.\nVerarbeite Video: 30wxAJ5uyzs\nTranskript für '30wxAJ5uyzs' gespeichert als 30wxAJ5uyzs.pdf.\nZIP-Archiv 'transcripts.zip' wurde erstellt.\n","output_type":"stream"}],"execution_count":15},{"cell_type":"code","source":"# os.remove(zip_filename)","metadata":{"trusted":true,"execution":{"iopub.status.busy":"2024-12-08T19:30:12.194141Z","iopub.execute_input":"2024-12-08T19:30:12.194584Z","iopub.status.idle":"2024-12-08T19:30:12.200364Z","shell.execute_reply.started":"2024-12-08T19:30:12.194548Z","shell.execute_reply":"2024-12-08T19:30:12.198944Z"}},"outputs":[],"execution_count":13}]}

+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {
+    "execution": {
+     "iopub.execute_input": "2024-12-08T19:21:41.981395Z",
+     "iopub.status.busy": "2024-12-08T19:21:41.981023Z",
+     "iopub.status.idle": "2024-12-08T19:21:56.468283Z",
+     "shell.execute_reply": "2024-12-08T19:21:56.466400Z",
+     "shell.execute_reply.started": "2024-12-08T19:21:41.981364Z"
+    },
+    "trusted": true
+   },
+   "outputs": [],
+   "source": [
+    "# ! pip install pytube youtube-transcript-api reportlab -q"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {
+    "execution": {
+     "iopub.execute_input": "2024-12-08T19:21:56.471492Z",
+     "iopub.status.busy": "2024-12-08T19:21:56.470984Z",
+     "iopub.status.idle": "2024-12-08T19:21:56.658038Z",
+     "shell.execute_reply": "2024-12-08T19:21:56.656869Z",
+     "shell.execute_reply.started": "2024-12-08T19:21:56.471442Z"
+    },
+    "trusted": true
+   },
+   "outputs": [],
+   "source": [
+    "from pytube import YouTube, Playlist\n",
+    "from youtube_transcript_api import YouTubeTranscriptApi, TranscriptsDisabled, NoTranscriptFound\n",
+    "from reportlab.lib.pagesizes import letter\n",
+    "from reportlab.pdfgen import canvas\n",
+    "import os\n",
+    "import zipfile"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "metadata": {
+    "execution": {
+     "iopub.execute_input": "2024-12-08T19:21:56.660152Z",
+     "iopub.status.busy": "2024-12-08T19:21:56.659720Z",
+     "iopub.status.idle": "2024-12-08T19:21:56.675204Z",
+     "shell.execute_reply": "2024-12-08T19:21:56.674023Z",
+     "shell.execute_reply.started": "2024-12-08T19:21:56.660092Z"
+    },
+    "trusted": true
+   },
+   "outputs": [],
+   "source": [
+    "# Funktion zum Extrahieren des Transkripts\n",
+    "def get_transcript_with_language_preference(video_id, preferred_languages=(\"en\", \"de\"), prefer_manual=True):\n",
+    "    \"\"\"\n",
+    "    Extracts a transcript based on the preferred languages.\n",
+    "    If no transcript is found in the preferred languages, it checks available languages.\n",
+    "    \n",
+    "    Args:\n",
+    "        video_id (str): The ID of the YouTube video.\n",
+    "        preferred_languages (tuple): Preferred languages in order of priority.\n",
+    "        prefer_manual (bool): Whether to prefer manually created transcripts over auto-generated ones.\n",
+    "        \n",
+    "    Returns:\n",
+    "        str: The transcript or an error message if not found.\n",
+    "    \"\"\"\n",
+    "    try:\n",
+    "        # Fetch the transcript list for the video\n",
+    "        transcript_list = YouTubeTranscriptApi.list_transcripts(video_id)\n",
+    "        \n",
+    "        # Filter transcripts for preferred languages and filter by manual or auto-generated type\n",
+    "        transcript = None\n",
+    "        for lang in preferred_languages:\n",
+    "            try:\n",
+    "                if prefer_manual:\n",
+    "                    transcript = transcript_list.find_transcript([lang])  # Prefer manually created transcripts\n",
+    "                else:\n",
+    "                    transcript = transcript_list.find_transcript([lang], filter_types=['generated'])  # Prefer auto-generated transcripts\n",
+    "                \n",
+    "                # If a valid transcript is found, break the loop\n",
+    "                if transcript:\n",
+    "                    break\n",
+    "            except Exception as e:\n",
+    "                # Continue if no transcript found for this language\n",
+    "                continue\n",
+    "\n",
+    "        # If no transcript was found in the preferred languages, return available transcripts\n",
+    "        if not transcript:\n",
+    "            available_transcripts = transcript_list\n",
+    "            available_languages = {t.language_code: t.language for t in available_transcripts}\n",
+    "            \n",
+    "            error_message = f\"Kein Transkript in den gewünschten Sprachen {preferred_languages} gefunden.\\n\"\n",
+    "            error_message += \"Verfügbare Sprachen:\\n\"\n",
+    "            error_message += \"\\n\".join([f\"- {code} ({lang})\" for code, lang in available_languages.items()])\n",
+    "            return error_message\n",
+    "\n",
+    "        # Get the actual transcript text\n",
+    "        transcript_data = transcript.fetch()\n",
+    "        return \"\\n\".join([entry[\"text\"] for entry in transcript_data])\n",
+    "\n",
+    "    except TranscriptsDisabled:\n",
+    "        return \"Transkripte sind für dieses Video deaktiviert.\"\n",
+    "    except NoTranscriptFound:\n",
+    "        return \"Es wurden keine Transkripte für dieses Video gefunden.\"\n",
+    "    except Exception as e:\n",
+    "        return f\"Allgemeiner Fehler beim Abrufen des Transkripts: {e}\"\n",
+    "\n",
+    "# Funktion zum Erstellen eines PDFs\n",
+    "def save_transcript_as_pdf_with_pagination(title, transcript):\n",
+    "    \"\"\"\n",
+    "    Speichert ein Transkript als PDF mit Seitenumbrüchen, wenn der Text zu lang ist.\n",
+    "    Args:\n",
+    "        title (str): Der Titel, der als Dateiname verwendet wird.\n",
+    "        transcript (str): Der Text des Transkripts.\n",
+    "    Returns:\n",
+    "        str: Der Name der gespeicherten PDF-Datei.\n",
+    "    \"\"\"\n",
+    "    # Sicheren Dateinamen erstellen\n",
+    "    filename = f\"{title}.pdf\".replace(\"/\", \"_\").replace(\"\\\\\", \"_\")\n",
+    "\n",
+    "    # PDF-Einstellungen\n",
+    "    c = canvas.Canvas(filename, pagesize=letter)\n",
+    "    width, height = letter\n",
+    "\n",
+    "    # Schrift- und Layout-Einstellungen\n",
+    "    margin = 50\n",
+    "    line_height = 14\n",
+    "    max_lines_per_page = int((height - 2 * margin) / line_height) - 2  # Platz für Titel und Seitenrand\n",
+    "\n",
+    "    # Titel schreiben\n",
+    "    c.setFont(\"Helvetica-Bold\", 16)\n",
+    "    c.drawString(margin, height - margin, title)\n",
+    "\n",
+    "    # Textblock initialisieren\n",
+    "    c.setFont(\"Helvetica\", 12)\n",
+    "    y_position = height - margin - 30  # Platz für Titel\n",
+    "\n",
+    "    # Text Zeile für Zeile schreiben\n",
+    "    lines = transcript.split(\"\\n\")\n",
+    "    line_count = 0\n",
+    "\n",
+    "    for line in lines:\n",
+    "        if line_count >= max_lines_per_page:  # Neue Seite bei Bedarf\n",
+    "            c.showPage()\n",
+    "            c.setFont(\"Helvetica-Bold\", 16)\n",
+    "            c.drawString(margin, height - margin, title)\n",
+    "            c.setFont(\"Helvetica\", 12)\n",
+    "            y_position = height - margin - 30\n",
+    "            line_count = 0\n",
+    "        \n",
+    "        c.drawString(margin, y_position, line)\n",
+    "        y_position -= line_height\n",
+    "        line_count += 1\n",
+    "\n",
+    "    # PDF speichern\n",
+    "    c.save()\n",
+    "    return filename"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 15,
+   "metadata": {
+    "execution": {
+     "iopub.execute_input": "2024-12-08T19:32:38.175946Z",
+     "iopub.status.busy": "2024-12-08T19:32:38.175463Z",
+     "iopub.status.idle": "2024-12-08T19:32:40.711451Z",
+     "shell.execute_reply": "2024-12-08T19:32:40.710172Z",
+     "shell.execute_reply.started": "2024-12-08T19:32:38.175908Z"
+    },
+    "trusted": true
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Verarbeite Video: B7uzC96-930\n",
+      "Transkript für 'B7uzC96-930' gespeichert als B7uzC96-930.pdf.\n",
+      "Verarbeite Video: 4QeKMnd8B7Q\n",
+      "Transkript für '4QeKMnd8B7Q' gespeichert als 4QeKMnd8B7Q.pdf.\n",
+      "Verarbeite Video: 30wxAJ5uyzs\n",
+      "Transkript für '30wxAJ5uyzs' gespeichert als 30wxAJ5uyzs.pdf.\n",
+      "ZIP-Archiv 'transcripts.zip' wurde erstellt.\n"
+     ]
+    }
+   ],
+   "source": [
+    "# Eingabe der URLs\n",
+    "urls = \"https://www.youtube.com/playlist?list=PLf8HAovJg47MN7bswKf73pffom98Fx8Q8\"\n",
+    "\n",
+    "pdf_filenames = []  # Liste zur Speicherung der PDF-Dateinamen\n",
+    "\n",
+    "# URL-Liste verarbeiten\n",
+    "url_list = urls.splitlines()\n",
+    "for url in url_list:\n",
+    "    url = url.strip()\n",
+    "    if not url:\n",
+    "        continue\n",
+    "\n",
+    "    # Playlist-URL oder Video-URL?\n",
+    "    if \"playlist\" in url:\n",
+    "        playlist = Playlist(url)\n",
+    "        video_urls = playlist.video_urls\n",
+    "    else:\n",
+    "        video_urls = [url]\n",
+    "\n",
+    "    for video_url in video_urls:\n",
+    "        try:\n",
+    "            yt = YouTube(video_url)\n",
+    "            video_id = yt.video_id\n",
+    "            title = video_id\n",
+    "            print(f\"Verarbeite Video: {title}\")\n",
+    "\n",
+    "            transcript = get_transcript_with_language_preference(video_id)\n",
+    "\n",
+    "            # Speichern des Transkripts als PDF\n",
+    "            pdf_filename = save_transcript_as_pdf_with_pagination(title, transcript)\n",
+    "            pdf_filenames.append(pdf_filename)\n",
+    "            print(f\"Transkript für '{title}' gespeichert als {pdf_filename}.\")\n",
+    "\n",
+    "        except Exception as e:\n",
+    "            print(f\"Fehler bei der Verarbeitung von {video_url}: {e}\")\n",
+    "\n",
+    "# Erstellen eines ZIP-Archivs\n",
+    "zip_filename = \"transcripts.zip\"\n",
+    "with zipfile.ZipFile(zip_filename, 'w') as zipf:\n",
+    "    for pdf_filename in pdf_filenames:\n",
+    "        zipf.write(pdf_filename)\n",
+    "        os.remove(pdf_filename)  # Lösche die PDF-Dateien nach dem Hinzufügen zum ZIP-Archiv\n",
+    "\n",
+    "print(f\"ZIP-Archiv '{zip_filename}' wurde erstellt.\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 13,
+   "metadata": {
+    "execution": {
+     "iopub.execute_input": "2024-12-08T19:30:12.194584Z",
+     "iopub.status.busy": "2024-12-08T19:30:12.194141Z",
+     "iopub.status.idle": "2024-12-08T19:30:12.200364Z",
+     "shell.execute_reply": "2024-12-08T19:30:12.198944Z",
+     "shell.execute_reply.started": "2024-12-08T19:30:12.194548Z"
+    },
+    "trusted": true
+   },
+   "outputs": [],
+   "source": [
+    "# os.remove(zip_filename)"
+   ]
+  }
+ ],
+ "metadata": {
+  "kaggle": {
+   "accelerator": "none",
+   "dataSources": [],
+   "dockerImageVersionId": 30804,
+   "isGpuEnabled": false,
+   "isInternetEnabled": true,
+   "language": "python",
+   "sourceType": "notebook"
+  },
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.10.14"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 4
+}