Spaces:

datenwerkzeuge
/

CDL-Webscraping-Workshop-2025

Sleeping

App Files Files Community

bsenst commited on Dec 16, 2024

Commit

c850600

1 Parent(s): 8449c52

add topbar, add agenda+lessons, add no-code

Browse files

Files changed (18) hide show

src/_quarto.yml +68 -23
src/agenda.qmd +22 -0
src/colab-github.qmd +55 -0
src/colab.qmd +93 -0
src/google-konto.qmd +67 -0
src/google-play-search.qmd +25 -0
src/huggingface.qmd +40 -0
src/notebooks/Gesetze_im_Internet_Aktualitätendienst.ipynb +0 -0
src/notebooks/Jobboerse_API.ipynb +0 -0
src/notebooks/buergergeld_forum.ipynb +0 -0
src/notebooks/get_videos_for_youtube_channels.ipynb +0 -0
src/notebooks/youtube-transcript-extraction.ipynb +1 -0
src/pdf-grouping.qmd +21 -0
src/pdf-link-extractor.qmd +23 -0
src/social-media.qmd +121 -0
src/tools.qmd +13 -0
src/website-url-extractor.qmd +20 -0
src/webspider.qmd +32 -0

src/_quarto.yml CHANGED Viewed

@@ -1,32 +1,77 @@
 project:
   type: website
 website:
-  title: "CDL Webscraping Workshop 2025"
   sidebar:
-    style: "docked"
-    search: true
-    collapse-level: 3
-    contents:
-      - section: "Erste Schritte"
         contents:
-          - href: index.qmd
-            text: "Willkommen"
-          - href: quarto-lokal.qmd
-            text: "Quarto lokal"
-      - section: "Webscraping Made Easy"
         contents:
-        - section: "Aufbau eines Webscraping-Prozesses"
-          contents:
-            - href: notebooks/bookstoscrape.qmd
-              text: "Bücherliste scrapen"
-        - section: "Anwendung von Webscraping & Datenaufbereitung"
-          contents:
-            - href: notebooks/quotes_scraper.ipynb
-              text: "Zitate scrapen"
-        # - section: "Individueller Webscraping-Case"
-        #   contents:
-        #     - href: notebooks/openstreetmap.qmd
-        #       text: "OpenStreetMap"
 format:
   html:

 project:
   type: website
 website:
+  title: "🧭 CDL Webscraping Workshop 2025"
+  navbar:
+    left:
+      - href: agenda.qmd
+        text: "Agenda"
+      - href: index.qmd
+        text: "1️⃣ Start"
+      - href: tools.qmd
+        text: "2️⃣ No-Code"
+      - href: notebooks/bookstoscrape.qmd
+        text: "3️⃣ Low-Code"
+      - href: notebooks/Gesetze_im_Internet_Aktualitätendienst.ipynb
+        text: "4️⃣ Use-Case"
+    tools:
+      - icon: chat-dots
+        href: https://huggingface.co/spaces/datenwerkzeuge/CDL-Webscraping-Workshop-2025/discussions
+      - icon: code-slash
+        href: https://huggingface.co/spaces/datenwerkzeuge/CDL-Webscraping-Workshop-2025/tree/main
   sidebar:
+    - title: "Start"
+      contents:
+        - href: index.qmd
+          text: "Willkommen"
+        - href: google-konto.qmd
+          text: "Google Konto erstellen"
+        - href: colab.qmd
+          text: "Colab nutzen"
+        - href: colab-github.qmd
+          text: "Colab nach GitHub speichern"
+        - href: huggingface.qmd
+          text: "Huggingface Ressourcen"
+        - href: quarto-lokal.qmd
+          text: "Quarto lokal"
+    - title: "No-Code"
+      contents:
+        - href: tools.qmd
+          text: "Werkzeuge"
+        - href: pdf-link-extractor.qmd
+          text: "PDF Link Extractor"
+        - href: pdf-grouping.qmd
+          text: "PDF Grouping"
+        - href: google-play-search.qmd
+          text: "Google Play Search"
+        - href: website-url-extractor.qmd
+          text: "URL Extractor"
+        - href: webspider.qmd
+          text: "Webspider"
+    - title: "Low-Code"
+      contents:
+      - section: "Scrapen einer Beispielseite"
         contents:
+          - href: notebooks/bookstoscrape.qmd
+            text: "Bücherliste scrapen"
+          - href: notebooks/quotes_scraper.ipynb
+            text: "Zitate scrapen"
+      - section: "Soziale Medien"
         contents:
+          - href: social-media.qmd
+            text: "Hinweise Scraping Social Media"
+          - href: notebooks/buergergeld_forum.ipynb
+            text: "Buergergeld Forum"
+          - href: notebooks/get_videos_for_youtube_channels.ipynb
+            text: "YouTube Channel Videos"
+          - href: notebooks/youtube-transcript-extraction.ipynb
+            text: "YouTube Video Transcripts"
+    - title: "Use-Case"
+      contents:
+        - href: notebooks/Gesetze_im_Internet_Aktualitätendienst.ipynb
+          text: "Aktualitätendienst Gesetze"
+        - href: notebooks/Jobboerse_API.ipynb
+          text: "Jobbörse"
 format:
   html:

src/agenda.qmd ADDED Viewed

	@@ -0,0 +1,22 @@

+### **Agenda für den Workshop (16:00 – 18:30 Uhr)**
+- **16:00 – 16:15 Uhr**
+Begrüßung und Einführung
+- **16:15 – 16:35 Uhr**
+Theorie: Einführung in Webscraping und Tools
+- **16:35 – 17:00 Uhr**
+Hands-on Session: Aufbau eines einfachen Webscraping-Prozesses
+- **17:00 – 17:40 Uhr**
+Hands-on Session: Anwendung von Webscraping und Datenaufbereitung
+- **17:40 – 18:00 Uhr**
+Praktischer Einblick: Niederschwellige Webscraping-Tools
+- **18:00 – 18:15 Uhr**
+Optionale Themen und zusätzliche Fragen
+- **18:15 – 18:30 Uhr**
+Abschluss und Feedback

src/colab-github.qmd ADDED Viewed

	@@ -0,0 +1,55 @@

+## Erstellung eines GitHub-Kontos 🚀
+1. **Besuche die GitHub-Registrierungsseite**:
+   - Gehe zu [GitHub Signup](https://github.com/join).
+2. **Registriere dich**:
+   - Gib eine E-Mail-Adresse ein, erstelle ein sicheres Passwort und wähle einen Benutzernamen.
+   - Bestätige deine Registrierung durch Klicken auf den Link, den du per E-Mail erhältst.
+3. **Fülle dein Profil aus**:
+   - Logge dich in dein neues Konto ein.
+   - Klicke auf dein Profilbild in der oberen rechten Ecke und wähle "Settings".
+   - Hier kannst du dein Profilbild, deinen Namen und eine kurze Beschreibung hinzufügen.
+---
+## Verbinden eines Colab-Notebooks mit GitHub 💻
+### Schritt 1: Ein neues Notebook erstellen oder öffnen
+1. **Gehe zu Google Colab**:
+   - Besuche [Google Colab](https://colab.research.google.com/).
+   - Melde dich mit deinem Google-Konto an, falls erforderlich.
+   - Erstelle ein neues Notebook oder öffne ein bestehendes.
+### Schritt 2: GitHub-Integration aktivieren
+1. **Verbinden mit GitHub**:
+   - Klicke auf "Datei" und dann auf "Auf GitHub speichern".
+   - Google Colab fordert dich auf, sich mit GitHub zu authentifizieren und die notwendigen Berechtigungen zu erteilen.
+   - Folge den Anweisungen, um die Verbindung herzustellen.
+### Schritt 3: Notebook als GitHub Gist speichern 🌟
+1. **Notebook als Gist speichern**:
+   - Klicke auf "Datei" und wähle "Notebook als Gist speichern".
+   - Wähle die Sichtbarkeit des Gists (öffentlich oder privat) und gib eine Beschreibung ein.
+   - Klicke auf "OK", um das Notebook als Gist zu speichern.
+### Schritt 4: Notebook in ein GitHub Repository speichern 📂
+1. **Repository erstellen**:
+   - Besuche [GitHub](https://github.com/) und klicke auf das "+"-Symbol in der oberen rechten Ecke. Wähle "New repository".
+   - Gib einen Namen für dein Repository ein, füge eine Beschreibung hinzu und wähle die Sichtbarkeit (öffentlich oder privat).
+   - Klicke auf "Create repository".
+2. **Notebook in das Repository speichern**:
+   - Gehe zurück zu Google Colab.
+   - Klicke auf "Datei" und wähle "Auf GitHub speichern".
+   - Wähle das zuvor erstellte Repository aus und gib optional eine Commit-Nachricht ein.
+   - Klicke auf "OK", um das Notebook im Repository zu speichern.
+---
+Herzlichen Glückwunsch! 🎉 Jetzt weißt du, wie du ein GitHub-Konto erstellst, ein Colab-Notebook mit GitHub verbindest und es als Gist oder in ein Repository speicherst. Viel Erfolg bei deinen Projekten! 🚀

src/colab.qmd ADDED Viewed

	@@ -0,0 +1,93 @@

+## Programmieren in Google Colab mit Hilfe von ChatGPT 🤖💻
+### Schritt 1: Öffne Google Colab
+1. **Gehe zu Google Colab**:
+   - Besuche [Google Colab](https://colab.research.google.com/).
+   - Melde dich mit deinem Google-Konto an, falls erforderlich.
+2. **Erstelle ein neues Notebook**:
+   - Klicke auf "Datei" in der oberen linken Ecke.
+   - Wähle "Neues Notebook".
+### Schritt 2: Einführung in ChatGPT für die Code-Erstellung 📝
+Um ChatGPT optimal zu nutzen, ist es wichtig, klare und präzise Prompts zu erstellen. Ein guter Prompt enthält alle notwendigen Informationen, die ChatGPT benötigt, um eine hilfreiche Antwort zu geben.
+#### Prompterstellung:
+1. **Sei spezifisch**: Gebe genaue Details an, was du erreichen möchtest.
+   - Beispiel: „Schreibe einen Python-Code, der eine Liste von Zahlen sortiert.“
+2. **Gebe Kontext**: Füge relevante Informationen hinzu, die helfen können, die Antwort zu präzisieren.
+   - Beispiel: „Ich arbeite in Google Colab und möchte eine Funktion erstellen, die eine Liste von Zahlen in aufsteigender Reihenfolge sortiert.“
+3. **Stelle Fragen oder Aufgaben klar**: Formuliere klare Fragen oder Aufgaben.
+   - Beispiel: „Kannst du mir den Code für eine Sortierfunktion in Python geben?“
+### Schritt 3: Nutzung von ChatGPT für die Code-Erstellung
+1. **Prompt in ChatGPT eingeben**:
+   - Beispiel-Prompt: „Ich brauche einen Python-Code, der eine Liste von Zahlen sortiert. Kannst du mir helfen?“
+2. **Kopiere den generierten Code**:
+   - Kopiere den von ChatGPT generierten Code in die Zwischenablage.
+### Schritt 4: Code in Google Colab einfügen und ausführen
+1. **Füge den Code in eine Codezelle ein**:
+   - Klicke in eine leere Codezelle in deinem Colab-Notebook und füge den kopierten Code ein.
+2. **Führe den Code aus**:
+   - Drücke die Tastenkombination `Shift + Enter`, um die Codezelle auszuführen.
+### Schritt 5: Fehlerbehebung mit ChatGPT 🔧
+Wenn du beim Ausführen deines Codes auf Fehler stößt, kannst du ChatGPT verwenden, um diese zu beheben:
+1. **Fehlermeldung kopieren**:
+   - Kopiere die Fehlermeldung aus Google Colab.
+2. **Fehlermeldung an ChatGPT übergeben**:
+   - Beispiel-Prompt: „Ich habe folgenden Fehler erhalten, als ich meinen Code in Google Colab ausgeführt habe: [Fehlermeldung]. Kannst du mir helfen, diesen Fehler zu beheben?“
+3. **Lösungen von ChatGPT anwenden**:
+   - Verwende die vorgeschlagenen Lösungen von ChatGPT, um den Fehler zu beheben und passe den Code entsprechend an.
+### Schritt 6: Code verbessern und weiterentwickeln 🚀
+Nutze ChatGPT, um deinen Code zu verbessern oder neue Funktionen hinzuzufügen:
+- Beispiel-Prompt: „Kannst du mir helfen, eine zusätzliche Funktion hinzuzufügen, die die Liste in absteigender Reihenfolge sortiert?“
+### Zusammenfassung 📜
+Durch die Verwendung von ChatGPT in Google Colab kannst du effizient Code schreiben, vervollständigen und Fehler beheben. Denke daran, spezifische und kontextreiche Prompts zu erstellen, um die besten Ergebnisse zu erzielen. Kopiere und füge den generierten Code in dein Colab-Notebook ein und nutze ChatGPT zur Fehlerbehebung, wenn Probleme auftreten.
+Viel Erfolg bei deinem Programmierprojekt! 🎉 Falls du noch weitere Fragen hast oder Unterstützung benötigst, lass es mich wissen. 😊✨
+### Nutzung der Code-Generierung ⚙️
+1. **Gehe zur Colab Enterprise Notebooks-Seite** und öffne dein Notizbuch.
+2. **Aktiviere Code-Generierung**:
+   - Klicke auf das Symbol "Help me code" in der Werkzeugleiste und wähle "Code generation".
+3. **Code generieren**:
+   - In einer leeren Codezelle, klicke auf "Generate".
+   - Gib eine Beschreibung des gewünschten Codes ein und drücke Enter.
+   - Beispiel: "Erzeuge einen pandas DataFrame aus einer CSV-Datei".
+4. **Panel schließen**:
+   - Klicke auf "Close", um das Generate-Panel zu schließen.
+### Fehler beheben 🔧
+1. **Gehe zur Colab Enterprise Notebooks-Seite** und öffne dein Notizbuch.
+2. **Aktiviere Code-Generierung**:
+   - Klicke auf das Symbol "Help me code" in der Werkzeugleiste und wähle "Code generation".
+3. **Code mit Fehler eingeben**:
+   - Gib Code mit einem Fehler in eine Codezelle ein und führe die Zelle aus. Beispiel: `print(1` (fehlende schließende Klammer).
+4. **Fehlerbehebungsvorschlag akzeptieren**:
+   - Wenn Gemini eine Lösung für den Fehler vorschlägt, klicke auf "Fix error".
+   - Bewerte den Vorschlag und klicke auf "Accept suggestion" oder "Reject suggestion".
+https://blog.google/technology/ai/democratizing-access-to-ai-enabled-coding-with-colab/
+https://blog.google/technology/developers/google-colab-ai-coding-features/
+https://www.youtube.com/watch?v=V7RXyqFUR98

src/google-konto.qmd ADDED Viewed

	@@ -0,0 +1,67 @@

+## Erstellung eines Google-Kontos 📧
+1. **Besuche die Google-Registrierungsseite**:
+   - Gehe zu [Google-Konto erstellen](https://accounts.google.com/signup).
+2. **Gib deine persönlichen Informationen ein**:
+   - Fülle das Formular mit deinem Vor- und Nachnamen aus.
+   - Wähle einen Benutzernamen für deine Google-Mail-Adresse.
+   - Erstelle ein sicheres Passwort und bestätige es.
+3. **Konto verifizieren**:
+   - Folge den Anweisungen zur Verifizierung deines Kontos (SMS-Code oder E-Mail-Verifizierung).
+4. **Abschließen der Einrichtung**:
+   - Fülle die restlichen Felder aus (Geburtsdatum, Geschlecht, etc.).
+   - Akzeptiere die Nutzungsbedingungen und Datenschutzrichtlinien von Google.
+Jetzt hast du ein Google-Konto! 🎉
+---
+## Nutzung von Google Colab 💻
+### Schritt 1: Öffne Google Colab
+1. **Gehe zu Google Colab**:
+   - Besuche [Google Colab](https://colab.research.google.com/).
+   - Melde dich mit deinem Google-Konto an, falls erforderlich.
+### Schritt 2: Neues Notebook erstellen
+1. **Erstelle ein neues Notebook**:
+   - Klicke auf "Datei" in der oberen linken Ecke.
+   - Wähle "Neues Notebook".
+### Schritt 3: Upload von Dateien 📁
+1. **Dateien hochladen**:
+   - Klicke im linken Seitenbereich auf das Ordnersymbol.
+   - Klicke auf das Upload-Symbol (Pfeil nach oben) und wähle die Dateien aus, die du hochladen möchtest.
+### Schritt 4: Verwendung von Gemini zur Unterstützung beim Programmieren 🤖
+Gemini ist ein fortgeschrittener KI-Code-Assistent, der dir beim Programmieren in Google Colab helfen kann. Um Gemini zu verwenden:
+1. **Installiere die benötigten Pakete**:
+   - Führe im Notebook folgende Befehle aus:
+     ```python
+     !pip install gemini
+     ```
+2. **Importiere Gemini und starte die Unterstützung**:
+   - Füge im Notebook folgenden Code hinzu:
+     ```python
+     import gemini
+     gemini.start()
+     ```
+   - Gemini wird nun aktiviert und kann dir beim Programmieren assistieren.
+### Schritt 5: Dateien und Notebook downloaden 📂
+1. **Notebook herunterladen**:
+   - Klicke auf "Datei" und wähle "Download .ipynb", um dein Notebook im Jupyter-Format herunterzuladen.
+2. **Dateien herunterladen**:
+   - Klicke im linken Seitenbereich auf das Ordnersymbol.
+   - Rechtsklicke auf die Datei, die du herunterladen möchtest, und wähle "Herunterladen".

src/google-play-search.qmd ADDED Viewed

	@@ -0,0 +1,25 @@

+---
+title: "Google-Play-App-Suche"
+author: "datenwerkzeuge"
+date: "2024-06-16"
+format: html
+---
+# Google-Play-App-Suche
+## Beschreibung
+Dieses Tool durchsucht den Google Play Store nach Apps, basierend auf einem vom Nutzer eingegebenen Suchbegriff, und liefert eine übersichtliche Ergebnisliste.
+## Funktionen
+- **Suchfunktion**: Eingabe eines Keywords zur Suche nach Apps.
+- **Details zu Apps**:
+   - App-Titel
+   - Entwickler
+   - Bewertung
+   - Google Play-Link zur App
+   - App-Icon
+- **URL-Ausgabe**: Separates Anzeigen der direkten Google-Play-Links zu den Apps.
+## Anwendungsfall
+Perfekt für Nutzer, die eine schnelle Übersicht über relevante Apps im Google Play Store erhalten möchten.

src/huggingface.qmd ADDED Viewed

	@@ -0,0 +1,40 @@

+### Schritt 1: Ein Hugging Face-Konto erstellen
+1. **Besuche die Hugging Face-Website**:
+   Gehe zu [Hugging Face](https://huggingface.co/).
+2. **Registriere dich**:
+   - Klicke auf "Sign Up" in der oberen rechten Ecke der Webseite.
+   - Gib deine E-Mail-Adresse ein, erstelle ein Passwort und wähle einen Benutzernamen.
+   - Bestätige die Registrierung durch Klicken auf den Link, den du per E-Mail erhältst.
+3. **Fülle dein Profil aus**:
+   - Logge dich in dein neues Konto ein.
+   - Klicke auf dein Profilbild in der oberen rechten Ecke und wähle "Profile".
+   - Hier kannst du dein Profilbild, deinen Namen und eine kurze Beschreibung hinzufügen.
+### Schritt 2: Einer Organisation beitreten
+1. **Navigiere zur Organisationsseite**:
+   - Gehe zu der Organisation, der du beitreten möchtest, indem du auf der Hugging Face-Seite nach ihr suchst.
+2. **Anfrage zum Beitritt**:
+   - Auf der Organisationsseite findest du eine Option, um eine Anfrage zum Beitritt zu stellen. Klicke auf "Request to join".
+3. **Warten auf Genehmigung**:
+   - Die Administratoren der Organisation werden deine Anfrage prüfen und genehmigen. Du erhältst eine Benachrichtigung, wenn deine Anfrage akzeptiert wurde.
+### Schritt 3: Ein Space duplizieren
+1. **Finde das Space, das du duplizieren möchtest**:
+   - Suche auf der Hugging Face-Seite nach dem Space, das du duplizieren möchtest.
+2. **Öffne das Space**:
+   - Klicke auf das Space, um die Detailseite zu öffnen.
+3. **Dupliziere das Space**:
+   - Auf der Detailseite des Spaces findest du einen Button mit der Aufschrift "Duplicate". Klicke darauf, um den Duplizierungsprozess zu starten.
+   - Wähle deinen eigenen Bereich oder ein anderes Ziel, wohin du das Space duplizieren möchtest.
+4. **Anpassen und Starten**:
+   - Nachdem das Space dupliziert wurde, kannst du es anpassen und starten. Navigiere zu deinem eigenen Bereich, um das duplizierte Space zu finden und zu verwalten.

src/notebooks/Gesetze_im_Internet_Aktualitätendienst.ipynb ADDED Viewed

The diff for this file is too large to render. See raw diff

src/notebooks/Jobboerse_API.ipynb ADDED Viewed

The diff for this file is too large to render. See raw diff

src/notebooks/buergergeld_forum.ipynb ADDED Viewed

The diff for this file is too large to render. See raw diff

src/notebooks/get_videos_for_youtube_channels.ipynb ADDED Viewed

The diff for this file is too large to render. See raw diff

src/notebooks/youtube-transcript-extraction.ipynb ADDED Viewed

	@@ -0,0 +1 @@

+ {"metadata":{"kernelspec":{"language":"python","display_name":"Python 3","name":"python3"},"language_info":{"name":"python","version":"3.10.14","mimetype":"text/x-python","codemirror_mode":{"name":"ipython","version":3},"pygments_lexer":"ipython3","nbconvert_exporter":"python","file_extension":".py"},"kaggle":{"accelerator":"none","dataSources":[],"dockerImageVersionId":30804,"isInternetEnabled":true,"language":"python","sourceType":"notebook","isGpuEnabled":false}},"nbformat_minor":4,"nbformat":4,"cells":[{"cell_type":"code","source":"! pip install pytube youtube-transcript-api reportlab -q","metadata":{"trusted":true,"execution":{"iopub.status.busy":"2024-12-08T19:21:41.981023Z","iopub.execute_input":"2024-12-08T19:21:41.981395Z","iopub.status.idle":"2024-12-08T19:21:56.468283Z","shell.execute_reply.started":"2024-12-08T19:21:41.981364Z","shell.execute_reply":"2024-12-08T19:21:56.466400Z"}},"outputs":[],"execution_count":1},{"cell_type":"code","source":"from pytube import YouTube, Playlist\nfrom youtube_transcript_api import YouTubeTranscriptApi, TranscriptsDisabled, NoTranscriptFound\nfrom reportlab.lib.pagesizes import letter\nfrom reportlab.pdfgen import canvas\nimport os\nimport zipfile","metadata":{"trusted":true,"execution":{"iopub.status.busy":"2024-12-08T19:21:56.470984Z","iopub.execute_input":"2024-12-08T19:21:56.471492Z","iopub.status.idle":"2024-12-08T19:21:56.658038Z","shell.execute_reply.started":"2024-12-08T19:21:56.471442Z","shell.execute_reply":"2024-12-08T19:21:56.656869Z"}},"outputs":[],"execution_count":2},{"cell_type":"code","source":"# Funktion zum Extrahieren des Transkripts\ndef get_transcript_with_language_preference(video_id, preferred_languages=(\"en\", \"de\"), prefer_manual=True):\n \"\"\"\n Extracts a transcript based on the preferred languages.\n If no transcript is found in the preferred languages, it checks available languages.\n \n Args:\n video_id (str): The ID of the YouTube video.\n preferred_languages (tuple): Preferred languages in order of priority.\n prefer_manual (bool): Whether to prefer manually created transcripts over auto-generated ones.\n \n Returns:\n str: The transcript or an error message if not found.\n \"\"\"\n try:\n # Fetch the transcript list for the video\n transcript_list = YouTubeTranscriptApi.list_transcripts(video_id)\n \n # Filter transcripts for preferred languages and filter by manual or auto-generated type\n transcript = None\n for lang in preferred_languages:\n try:\n if prefer_manual:\n transcript = transcript_list.find_transcript([lang]) # Prefer manually created transcripts\n else:\n transcript = transcript_list.find_transcript([lang], filter_types=['generated']) # Prefer auto-generated transcripts\n \n # If a valid transcript is found, break the loop\n if transcript:\n break\n except Exception as e:\n # Continue if no transcript found for this language\n continue\n\n # If no transcript was found in the preferred languages, return available transcripts\n if not transcript:\n available_transcripts = transcript_list\n available_languages = {t.language_code: t.language for t in available_transcripts}\n \n error_message = f\"Kein Transkript in den gewünschten Sprachen {preferred_languages} gefunden.\\n\"\n error_message += \"Verfügbare Sprachen:\\n\"\n error_message += \"\\n\".join([f\"- {code} ({lang})\" for code, lang in available_languages.items()])\n return error_message\n\n # Get the actual transcript text\n transcript_data = transcript.fetch()\n return \"\\n\".join([entry[\"text\"] for entry in transcript_data])\n\n except TranscriptsDisabled:\n return \"Transkripte sind für dieses Video deaktiviert.\"\n except NoTranscriptFound:\n return \"Es wurden keine Transkripte für dieses Video gefunden.\"\n except Exception as e:\n return f\"Allgemeiner Fehler beim Abrufen des Transkripts: {e}\"\n\n# Funktion zum Erstellen eines PDFs\ndef save_transcript_as_pdf_with_pagination(title, transcript):\n \"\"\"\n Speichert ein Transkript als PDF mit Seitenumbrüchen, wenn der Text zu lang ist.\n Args:\n title (str): Der Titel, der als Dateiname verwendet wird.\n transcript (str): Der Text des Transkripts.\n Returns:\n str: Der Name der gespeicherten PDF-Datei.\n \"\"\"\n # Sicheren Dateinamen erstellen\n filename = f\"{title}.pdf\".replace(\"/\", \"_\").replace(\"\\\\\", \"_\")\n\n # PDF-Einstellungen\n c = canvas.Canvas(filename, pagesize=letter)\n width, height = letter\n\n # Schrift- und Layout-Einstellungen\n margin = 50\n line_height = 14\n max_lines_per_page = int((height - 2 * margin) / line_height) - 2 # Platz für Titel und Seitenrand\n\n # Titel schreiben\n c.setFont(\"Helvetica-Bold\", 16)\n c.drawString(margin, height - margin, title)\n\n # Textblock initialisieren\n c.setFont(\"Helvetica\", 12)\n y_position = height - margin - 30 # Platz für Titel\n\n # Text Zeile für Zeile schreiben\n lines = transcript.split(\"\\n\")\n line_count = 0\n\n for line in lines:\n if line_count >= max_lines_per_page: # Neue Seite bei Bedarf\n c.showPage()\n c.setFont(\"Helvetica-Bold\", 16)\n c.drawString(margin, height - margin, title)\n c.setFont(\"Helvetica\", 12)\n y_position = height - margin - 30\n line_count = 0\n \n c.drawString(margin, y_position, line)\n y_position -= line_height\n line_count += 1\n\n # PDF speichern\n c.save()\n return filename","metadata":{"trusted":true,"execution":{"iopub.status.busy":"2024-12-08T19:21:56.659720Z","iopub.execute_input":"2024-12-08T19:21:56.660152Z","iopub.status.idle":"2024-12-08T19:21:56.675204Z","shell.execute_reply.started":"2024-12-08T19:21:56.660092Z","shell.execute_reply":"2024-12-08T19:21:56.674023Z"}},"outputs":[],"execution_count":3},{"cell_type":"code","source":"# Eingabe der URLs\nurls = \"https://www.youtube.com/playlist?list=PLf8HAovJg47MN7bswKf73pffom98Fx8Q8\"\n\npdf_filenames = [] # Liste zur Speicherung der PDF-Dateinamen\n\n# URL-Liste verarbeiten\nurl_list = urls.splitlines()\nfor url in url_list:\n url = url.strip()\n if not url:\n continue\n\n # Playlist-URL oder Video-URL?\n if \"playlist\" in url:\n playlist = Playlist(url)\n video_urls = playlist.video_urls\n else:\n video_urls = [url]\n\n for video_url in video_urls:\n try:\n yt = YouTube(video_url)\n video_id = yt.video_id\n title = video_id\n print(f\"Verarbeite Video: {title}\")\n\n transcript = get_transcript_with_language_preference(video_id)\n\n # Speichern des Transkripts als PDF\n pdf_filename = save_transcript_as_pdf_with_pagination(title, transcript)\n pdf_filenames.append(pdf_filename)\n print(f\"Transkript für '{title}' gespeichert als {pdf_filename}.\")\n\n except Exception as e:\n print(f\"Fehler bei der Verarbeitung von {video_url}: {e}\")\n\n# Erstellen eines ZIP-Archivs\nzip_filename = \"transcripts.zip\"\nwith zipfile.ZipFile(zip_filename, 'w') as zipf:\n for pdf_filename in pdf_filenames:\n zipf.write(pdf_filename)\n os.remove(pdf_filename) # Lösche die PDF-Dateien nach dem Hinzufügen zum ZIP-Archiv\n\nprint(f\"ZIP-Archiv '{zip_filename}' wurde erstellt.\")","metadata":{"trusted":true,"execution":{"iopub.status.busy":"2024-12-08T19:32:38.175463Z","iopub.execute_input":"2024-12-08T19:32:38.175946Z","iopub.status.idle":"2024-12-08T19:32:40.711451Z","shell.execute_reply.started":"2024-12-08T19:32:38.175908Z","shell.execute_reply":"2024-12-08T19:32:40.710172Z"}},"outputs":[{"name":"stdout","text":"Verarbeite Video: B7uzC96-930\nTranskript für 'B7uzC96-930' gespeichert als B7uzC96-930.pdf.\nVerarbeite Video: 4QeKMnd8B7Q\nTranskript für '4QeKMnd8B7Q' gespeichert als 4QeKMnd8B7Q.pdf.\nVerarbeite Video: 30wxAJ5uyzs\nTranskript für '30wxAJ5uyzs' gespeichert als 30wxAJ5uyzs.pdf.\nZIP-Archiv 'transcripts.zip' wurde erstellt.\n","output_type":"stream"}],"execution_count":15},{"cell_type":"code","source":"# os.remove(zip_filename)","metadata":{"trusted":true,"execution":{"iopub.status.busy":"2024-12-08T19:30:12.194141Z","iopub.execute_input":"2024-12-08T19:30:12.194584Z","iopub.status.idle":"2024-12-08T19:30:12.200364Z","shell.execute_reply.started":"2024-12-08T19:30:12.194548Z","shell.execute_reply":"2024-12-08T19:30:12.198944Z"}},"outputs":[],"execution_count":13}]}

src/pdf-grouping.qmd ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+title: "PDF-Keyword-Grouping-App"
+author: "datenwerkzeuge"
+date: "2024-06-16"
+format: html
+---
+# PDF-Keyword-Grouping-App
+## Beschreibung
+Die App gruppiert hochgeladene PDF-Dateien basierend auf semantischen Themen. Sie extrahiert relevante Schlüsselwörter aus den PDFs und ordnet sie automatisch den am besten passenden Themen zu.
+## Funktionen
+- **PDF-Upload**: Mehrere PDFs gleichzeitig hochladen.
+- **Keyword-Extraktion**: Automatische Extraktion der wichtigsten Schlüsselwörter pro PDF.
+- **Themenbasierte Gruppierung**: PDFs werden mithilfe von KI-Modellen wie KeyBERT und Sentence Transformers in semantische Gruppen aufgeteilt.
+- **Download als ZIP**: Die gruppierten PDFs werden in einem ZIP-Archiv zum Download bereitgestellt.
+## Anwendungsfall
+Geeignet für Nutzer, die eine große Anzahl von PDFs nach inhaltlichen Themen sortieren und effizient organisieren möchten.

src/pdf-link-extractor.qmd ADDED Viewed

	@@ -0,0 +1,23 @@

+---
+title: "PDF-Link-Extractor"
+author: "datenwerkzeuge"
+date: "2024-06-16"
+format: html
+---
+# PDF-Link-Extractor
+## Beschreibung
+Diese Anwendung durchsucht eine angegebene Webseite oder eine hochgeladene HTML-Datei nach PDF-Links. Die gefundenen PDF-Dateien werden anschließend heruntergeladen und in einer ZIP-Datei organisiert bereitgestellt.
+## Funktionen
+- **Eingabeoptionen**:
+   - URL der Webseite
+   - Hochladen einer HTML-Datei
+- **PDF-Suche**: Extraktion aller PDF-Links auf der Seite.
+- **Download & Komprimierung**: Herunterladen der PDFs und Bereitstellung in einem ZIP-Archiv.
+- **Übersicht der gefundenen PDFs**: Anzeige der Dateigrößen und Namen.
+## Anwendungsfall
+Ideal für Nutzer, die alle PDFs von einer Webseite systematisch sammeln und lokal speichern möchten.

src/social-media.qmd ADDED Viewed

	@@ -0,0 +1,121 @@

+### Web Scraping von Social-Media-Plattformen: Erklärung und Python-Beispiele
+Web Scraping ist eine Technik, um Daten automatisiert aus Webseiten zu extrahieren. Beim Scraping von Social-Media-Plattformen wie Facebook, Twitter (jetzt X), Instagram oder LinkedIn müssen strenge rechtliche, ethische und technische Vorgaben eingehalten werden. Diese Regeln schützen sowohl die Plattformen als auch die Nutzer vor Missbrauch, Datenmanipulation und Verletzungen der Privatsphäre.
+---
+#### **Wichtige Vorgaben und Einschränkungen**
+1. **Einhaltung der Nutzungsbedingungen**:
+   - Die Nutzungsbedingungen der Plattformen verbieten oft automatisiertes Scraping ohne ausdrückliche Genehmigung.
+   - Scraping, das die Plattform oder ihre Nutzer schädigt, ist unzulässig.
+2. **Authentifizierung und API-Nutzung**:
+   - Plattformen bieten oft offizielle APIs (Application Programming Interfaces) an, die eine datenschutzkonforme und autorisierte Datenabfrage ermöglichen.
+   - Für den Zugriff auf APIs ist eine Authentifizierung (z. B. mittels API-Schlüssel oder OAuth) erforderlich.
+3. **Datenschutz und ethische Verantwortung**:
+   - Das Sammeln von personenbezogenen Daten erfordert eine rechtliche Grundlage (z. B. Zustimmung der Nutzer).
+   - Die Daten dürfen nicht für manipulative Zwecke verwendet werden.
+4. **Technische Einschränkungen**:
+   - Plattformen implementieren Schutzmaßnahmen wie Captchas, Rate Limits und IP-Blocking, um unautorisiertes Scraping zu verhindern.
+---
+#### **Gemeinsamkeiten beim Scraping von Social Media**
+- **Authentifizierung**:
+  - Die meisten Plattformen erfordern eine Anmeldung, um auf geschützte Inhalte zuzugreifen.
+  - APIs nutzen Authentifizierungsmethoden wie OAuth oder API-Keys.
+- **Rate Limits**:
+  - Plattformen beschränken die Anzahl der Anfragen, um Serverüberlastung und Missbrauch zu verhindern.
+- **Datenstruktur**:
+  - Die Daten werden häufig in JSON-Format geliefert (bei API-Anfragen).
+- **Rechts- und Sicherheitsanforderungen**:
+  - Jede Plattform stellt spezifische Anforderungen, die jedoch alle die Privatsphäre und Sicherheit der Nutzer schützen sollen.
+---
+#### **Beispiele für Scraping mit Python**
+##### 1. **Nutzung der Twitter-API (via `tweepy`)**
+Die API ist die offizielle und empfohlene Methode, um Twitter-Daten abzufragen.
+```python
+import tweepy
+# Authentifizierung
+api_key = "DEINE_API_KEY"
+api_key_secret = "DEIN_API_SECRET"
+access_token = "DEIN_ACCESS_TOKEN"
+access_token_secret = "DEIN_ACCESS_TOKEN_SECRET"
+auth = tweepy.OAuthHandler(api_key, api_key_secret)
+auth.set_access_token(access_token, access_token_secret)
+api = tweepy.API(auth)
+# Tweets mit einem Hashtag suchen
+query = "#Python"
+tweets = tweepy.Cursor(api.search_tweets, q=query, lang="en").items(5)
+for tweet in tweets:
+    print(f"Tweet von @{tweet.user.screen_name}: {tweet.text}")
+```
+**Hinweis**: Beachte die Twitter-Rate-Limits und die Twitter-Entwicklerrichtlinien.
+---
+##### 2. **Scraping einer öffentlichen Webseite mit `BeautifulSoup`**
+Manchmal möchten Entwickler Daten von öffentlich zugänglichen Social-Media-Seiten extrahieren. Dies birgt Risiken, wenn keine Genehmigung vorliegt.
+```python
+import requests
+from bs4 import BeautifulSoup
+# URL einer öffentlichen Instagram-Seite
+url = "https://www.instagram.com/explore/tags/python/"
+headers = {
+    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
+}
+response = requests.get(url, headers=headers)
+soup = BeautifulSoup(response.text, "html.parser")
+# Vorsicht: Viele Plattformen haben Schutzmaßnahmen gegen Scraping.
+titles = soup.find_all("title")
+print([title.text for title in titles])
+```
+**Warnung**: Viele Social-Media-Seiten setzen JavaScript ein, und einfache Scraping-Methoden funktionieren oft nicht. Außerdem kann das Umgehen von Schutzmaßnahmen wie Captchas rechtliche Konsequenzen haben.
+---
+##### 3. **LinkedIn API für Profildaten (via `linkedin-api`)**
+LinkedIn stellt eine API für Unternehmenspartner zur Verfügung. Die Nutzung erfordert Zugangsbeschränkungen und Genehmigungen.
+```python
+from linkedin_api import Linkedin
+# Login mit LinkedIn-Konto
+api = Linkedin("dein_benutzername", "dein_passwort")
+# Profildaten eines Nutzers abrufen
+profile = api.get_profile("public_profile_url")
+print(profile)
+```
+---
+#### **Zusammenfassung**
+Web Scraping von Social-Media-Daten ist technisch möglich, aber nur unter strikter Beachtung der rechtlichen und ethischen Vorgaben vertretbar. Die Nutzung offizieller APIs ist der empfohlene Weg, da sie den Zugriff kontrolliert und im Einklang mit den Plattformrichtlinien erlaubt.
+Bevor Scraping-Projekte umgesetzt werden:
+- **Prüfe die Nutzungsbedingungen der Plattform.**
+- **Respektiere die Privatsphäre und Rechte der Nutzer.**
+- **Nutze offizielle APIs, wo immer möglich.**
+Die Automatisierung ohne Erlaubnis kann rechtliche Konsequenzen haben, daher ist Vorsicht geboten.

src/tools.qmd ADDED Viewed

	@@ -0,0 +1,13 @@

+Eine Sammlung interaktiver **Spaces**, die praktische Anwendungen rund um **Webscraping** und **lokale Datensammlung** demonstrieren. Ziel ist es, die Möglichkeiten der Datenerfassung zu illustrieren.
+### **Bereits verfügbares Werkzeug:**
+- **[Webspider](https://huggingface.co/spaces/datenwerkzeuge/webspider)**:
+  Diese App ermöglicht es, eine angegebene Webseite zu durchsuchen und strukturierte Daten wie URLs, Titel und Inhalte zu extrahieren. Die Ergebnisse werden übersichtlich angezeigt und können im JSON-Format heruntergeladen werden. Nutzer können dabei die Tiefe der Navigation und die maximale Seitenanzahl individuell einstellen, um die Datensammlung an ihre Bedürfnisse anzupassen.
+- **[PDFs-Sammeln](https://huggingface.co/spaces/datenwerkzeuge/pdfs-sammeln)**:
+  Diese App durchsucht eine angegebene Webseite oder eine hochgeladene HTML-Datei nach PDF-Links, lädt die gefundenen PDF-Dokumente herunter und erstellt daraus eine ZIP-Datei. Nutzer können die Datei samt einer Übersicht der gefundenen PDFs (inklusive Dateigröße) direkt herunterladen. Das Tool ermöglicht es, PDF-Dokumente effizient zu sammeln und organisiert bereitzustellen.
+- **[PDF Keyword Grouping App](https://huggingface.co/spaces/datenwerkzeuge/PDF-Keyword-Grouping-App)**:
+  Dieses Tool analysiert den Textinhalt hochgeladener PDFs, extrahiert Schlüsselbegriffe und gruppiert die Dokumente basierend auf den ausgewählten Themen oder Keywords. Es verwendet fortschrittliche KI-Modelle für semantische Textanalyse und Zuordnung. Am Ende können die gruppierten PDFs als ZIP-Datei heruntergeladen werden, um sie übersichtlich zu organisieren und effizient weiterzuverarbeiten.
+- **[Google Play App Search](https://huggingface.co/spaces/datenwerkzeuge/Google-Play-App-Search)**:
+  Dieses Tool ermöglicht die Suche nach Apps im Google Play Store anhand eines eingegebenen Suchbegriffs. Die Ergebnisse enthalten Details wie App-Titel, Entwickler, Bewertung und einen direkten Link zur App im Store. Zusätzlich wird eine separate Liste mit allen URLs der gefundenen Apps bereitgestellt, um eine schnelle Weiterverarbeitung zu ermöglichen.
+- **[Webseiten-URL-Extraktor](https://huggingface.co/spaces/datenwerkzeuge/Webseiten-URL-Extraktor)**:
+  Dieses Tool extrahiert automatisch alle Links von einer angegebenen Webseite. Es listet die URLs übersichtlich auf und bietet somit eine einfache Möglichkeit, alle relevanten Verweise einer Seite zu sammeln. Perfekt für die Analyse und Weiterverarbeitung von Webseiteninhalten.

src/website-url-extractor.qmd ADDED Viewed

	@@ -0,0 +1,20 @@

+---
+title: "Webseiten-URL-Extraktor"
+author: "datenwerkzeuge"
+date: "2024-06-16"
+format: html
+---
+# Webseiten-URL-Extraktor
+## Beschreibung
+Dieses Tool extrahiert alle Links von einer angegebenen Webseite und stellt sie übersichtlich dar.
+## Funktionen
+- **Webseitenanalyse**: Automatische Extraktion aller URLs von einer Webseite.
+- **Filterung**: Nur vollständige Links (z. B. beginnend mit `http`) werden angezeigt.
+- **Einfaches Interface**: Eingabefeld für die URL und eine klare Liste der extrahierten Links.
+## Anwendungsfall
+Ideal für Nutzer, die schnell alle Links einer Webseite analysieren oder weiterverarbeiten möchten.

src/webspider.qmd ADDED Viewed

	@@ -0,0 +1,32 @@

+**Spaces / Webspider** ist eine private Webanwendung, die mithilfe von **Streamlit** und **Scrapy** entwickelt wurde, um strukturierte Daten von Webseiten zu extrahieren. Sie bietet eine benutzerfreundliche Oberfläche, um Webseiten zu durchsuchen und die Ergebnisse in einem leicht zugänglichen Format herunterzuladen.
+#### Hauptfunktionen:
+1. **Benutzerdefinierte Scraping-Parameter**:
+   - Einstellung der maximalen **Tiefe** für die Navigation durch Seiten (Depth Limit).
+   - Festlegen der **Seitenanzahl**, die maximal durchsucht werden soll (Page Count Limit).
+2. **URL-Eingabe**:
+   - Benutzer können die Start-URL angeben, von der aus das Scraping beginnen soll.
+3. **Statusüberprüfung**:
+   - Informiert, ob der Scraping-Vorgang noch läuft oder abgeschlossen ist.
+4. **Datenanzeige und -export**:
+   - Nach Abschluss des Scraping-Prozesses werden die gesammelten Daten (z. B. URLs, Seitentitel und Inhalte) angezeigt.
+   - Daten können im JSON-Format heruntergeladen werden.
+5. **Scrapy Spider-Integration**:
+   - Der integrierte Spider navigiert durch die Webseiten, extrahiert Inhalte und folgt internen Links innerhalb derselben Domain.
+   - Enthält eine Funktion zur Bereinigung von Text (Entfernung von HTML-Tags, Skripten und Stilen).
+#### Technische Highlights:
+- **Streamlit** wird für die interaktive Benutzeroberfläche genutzt.
+- **Scrapy** führt die eigentliche Datenextraktion durch.
+- Dynamische Anpassung von Scraping-Parametern wie Tiefe und Seitenanzahl.
+- Fortschrittsprotokollierung über lokale Logdateien.
+- Ergebnisanzeige mit der Option, die gesammelten Daten direkt herunterzuladen.
+**Einsatzmöglichkeiten**:
+Die Anwendung eignet sich für die Datenerfassung aus öffentlich zugänglichen Webseiten, sei es zur Inhaltsanalyse, Datenaggregation oder weiteren Recherchezwecken.
+**Hinweis**: Sie sollte verantwortungsvoll und im Einklang mit den geltenden Nutzungsbedingungen der Zielseiten verwendet werden.