Spaces:

datenwerkzeuge
/

CDL-Webscraping-Workshop-2025

Sleeping

App Files Files Community

bsenst commited on Dec 31, 2024

Commit

e392f4c

1 Parent(s): 1203cd3

add colab badges to ipynb, fix typos and minor bugs

Browse files

Files changed (14) hide show

src/01_setup/agenda.qmd +5 -1
src/01_setup/aufbereitung.qmd +140 -0
src/01_setup/erforderlich/colab.qmd +1 -1
src/02_basics/pdf/pdf-link-extractor.qmd +4 -0
src/02_basics/webspider/webspider.qmd +8 -5
src/03_low_code/app_market_scraping/app_market_scraping.qmd +2 -0
src/03_low_code/catalogue.qmd +1 -1
src/03_low_code/catalogue/quotes_scraper.ipynb +8 -1
src/03_low_code/video_transcripts/get_videos_for_youtube_channels.ipynb +7 -0
src/03_low_code/video_transcripts/youtube-transcript-extraction.ipynb +7 -0
src/04_use_case/forum/buergergeld_forum.ipynb +7 -0
src/04_use_case/jobs/Jobboerse_API.ipynb +7 -0
src/04_use_case/laws/Gesetze_im_Internet_Aktualitätendienst.ipynb +7 -0
src/_quarto.yml +2 -0

src/01_setup/agenda.qmd CHANGED Viewed

@@ -1,3 +1,7 @@
 ### Zeitplan
 - **16:00 Uhr**
@@ -60,7 +64,7 @@ graph LR
 	style B fill:#FF66C4
 	style A fill:#D9D9D9
-    classDef blackText fill:#FFFFFF,stroke:#000000,color:#000000;
     class A,B,B1,B2,B3,C,C1,C2,C3,D,D1,D2,D3 blackText;
 ```

+---
+title: "Agenda"
+---
 ### Zeitplan
 - **16:00 Uhr**
 	style B fill:#FF66C4
 	style A fill:#D9D9D9
+    classDef blackText stroke:#000000,color:#000000;
     class A,B,B1,B2,B3,C,C1,C2,C3,D,D1,D2,D3 blackText;
 ```

src/01_setup/aufbereitung.qmd ADDED Viewed

	@@ -0,0 +1,140 @@

+---
+title: "Werkzeuge zur Datenaufbereitung"
+---
+Die Analyse gesammelter Daten ist ein wichtiger Schritt, um Erkenntnisse zu gewinnen und Entscheidungen zu unterstützen. Dieser Artikel stellt kostenlose Werkzeuge vor, die sich zur Analyse verschiedener Datentypen und -formate eignen. Dabei werden sowohl Textdateien, PDFs, Tabellen als auch andere Datenquellen berücksichtigt. Zudem beleuchten wir mögliche Ausgabeformate wie Texte, Visualisierungen, Mindmaps und Diagramme.
+## Textbasierte Daten
+### NotebookLM
+**Beschreibung**: NotebookLM ist ein KI-gestütztes Tool, das dabei hilft, Textdokumente zu analysieren, Schlüsselbegriffe zu extrahieren und Zusammenfassungen zu erstellen.
+**Datentypen**:
+- Textdateien (z. B. `.txt`)
+- PDFs
+**Funktionen**:
+- Zusammenfassung langer Texte
+- Extraktion von Schlüsselbegriffen
+- Beantwortung spezifischer Fragen zu den hochgeladenen Dokumenten
+**Ausgabeformate**:
+- Textzusammenfassungen
+- Geordnete Listen von Schlüsselbegriffen
+### ChatGPT / Bing Chat
+**Beschreibung**: KI-gestützte Chats wie ChatGPT und Bing Chat können genutzt werden, um Daten aus Texten oder strukturierten Formaten wie CSVs zu extrahieren, analysieren und interpretieren.
+**Datentypen**:
+- Texte
+- CSV-Dateien (nach Konvertierung in Textformate)
+- PDFs (nach Konvertierung in Textformate)
+**Funktionen**:
+- Datenanalyse und -interpretation
+- Textzusammenfassungen
+- Beantwortung spezifischer Fragen
+**Ausgabeformate**:
+- Texte
+- Tabellen
+- Bullet Points
+## Tabellen und strukturelle Daten
+### Microsoft Excel
+**Beschreibung**: Excel bietet einfache Werkzeuge zur Bearbeitung und Analyse von Tabellen.
+**Datentypen**:
+- CSV-Dateien
+- Excel-Dateien (`.xlsx`, `.xls`)
+**Funktionen**:
+- Datenfilterung und Sortierung
+- Berechnung von Statistiken
+- Erstellung von Diagrammen
+**Ausgabeformate**:
+- Zahlengrafiken (z. B. Balken- und Liniendiagramme)
+- Tabellen
+### Google Colab
+**Beschreibung**: Eine Plattform zur Nutzung von Python-Notebooks, die umfangreiche Bibliotheken wie Matplotlib oder Seaborn zur Visualisierung bietet.
+**Datentypen**:
+- CSV
+- JSON
+- Excel-Dateien
+**Funktionen**:
+- Erstellung komplexer Diagramme
+- Datenbereinigung und Transformation
+**Ausgabeformate**:
+- Visualisierungen (z. B. Balken-, Linien-, Streudiagramme)
+- Tabellen
+## Visuelle Ausgabemöglichkeiten
+```{dot}
+graph G {
+  community_meeting -- awareness_campaign;
+  awareness_campaign -- petition;
+  petition -- community_meeting;
+  community_meeting -- local_government;
+  local_government -- policy_draft;
+  local_government -- resource_allocation;
+  policy_draft -- review;
+  review -- revision;
+  revision -- final_policy;
+  revision -- policy_draft;
+  final_policy -- resource_allocation;
+  review -- resource_allocation;
+}
+```
+### Mermaid.js
+**Beschreibung**: Ein Tool zur Erstellung von Diagrammen und Flussdiagrammen aus Textdefinitionen.
+**Datentypen**:
+- Textdateien mit Mermaid-Syntax
+**Funktionen**:
+- Erstellung von Diagrammen wie Flussdiagrammen, Gantt-Diagrammen, und mehr
+**Ausgabeformate**:
+- Diagramme in HTML oder SVG
+**Beispiel**:
+```mermaid
+graph TD
+    A[Start] --> B[Entscheidung]
+    B -->|Ja| C[Weiter]
+    B -->|Nein| D[Ende]
+```
+```{mermaid}
+graph TD
+    A[Start] --> B[Entscheidung]
+    B -->|Ja| C[Weiter]
+    B -->|Nein| D[Ende]
+```
+# Fazit
+Die Wahl des richtigen Werkzeugs hängt vom Datentyp und den gewünschten Ausgabemöglichkeiten ab. Textbasierte Daten können hervorragend mit NotebookLM oder ChatGPT analysiert werden, während Tabellenformate in Excel oder Google Colab aufbereitet werden können. Für Visualisierungen und Mindmaps bieten Markmap.js und Mermaid.js innovative und einfache Lösungen. Mit diesen Tools lassen sich Daten effizient und professionell auswerten.

src/01_setup/erforderlich/colab.qmd CHANGED Viewed

@@ -53,7 +53,7 @@ image: _c6cbaab4-a264-43bf-8b0f-311e210cd959.jpeg
    - Wenn Gemini eine Lösung für den Fehler vorschlägt, klicke auf "Fix error".
    - Bewerte den Vorschlag und klicke auf "Accept suggestion" oder "Reject suggestion".
-## Einführung in ChatGPT für die Code-Erstellung 📝
 Um Sprachmodelle optimal zu nutzen, ist es wichtig, klare und präzise Prompts zu erstellen. Ein guter Prompt enthält alle notwendigen Informationen, die ChatGPT benötigt, um eine hilfreiche Antwort zu geben.

    - Wenn Gemini eine Lösung für den Fehler vorschlägt, klicke auf "Fix error".
    - Bewerte den Vorschlag und klicke auf "Accept suggestion" oder "Reject suggestion".
+## ChatGPT für die Code-Erstellung 📝
 Um Sprachmodelle optimal zu nutzen, ist es wichtig, klare und präzise Prompts zu erstellen. Ein guter Prompt enthält alle notwendigen Informationen, die ChatGPT benötigt, um eine hilfreiche Antwort zu geben.

src/02_basics/pdf/pdf-link-extractor.qmd CHANGED Viewed

@@ -34,6 +34,10 @@ image: _30a8d023-6f69-46e3-8ae1-1d7555d04902.jpeg
    - Die Anwendung durchsucht die HTML-Datei nach PDF-Links, lädt die gefundenen PDFs herunter und stellt sie in einem ZIP-Archiv bereit.
    - Laden Sie das ZIP-Archiv herunter, um die gesammelten PDF-Dateien zu erhalten.
 ## Fazit

    - Die Anwendung durchsucht die HTML-Datei nach PDF-Links, lädt die gefundenen PDFs herunter und stellt sie in einem ZIP-Archiv bereit.
    - Laden Sie das ZIP-Archiv herunter, um die gesammelten PDF-Dateien zu erhalten.
+### 4. Auswertung der PDFs:
+   - Nutzen Sie kostenlose Werkzeuge wie NotebookLM, ChatGPT oder Bing Chat, um die Texte in den PDFs zu analysieren.
+   - Weitere Details zur Auswertung finden Sie in [Aufbereitung](../../01_setup/aufbereitung.qmd).
 ## Fazit

src/02_basics/webspider/webspider.qmd CHANGED Viewed

@@ -6,21 +6,24 @@ image: _24e522b8-a6d0-4212-a02e-7738b3098105.jpeg
 ## Anleitung
-1. **Benutzerdefinierte Scraping-Parameter**:
    - Einstellung der maximalen **Tiefe** für die Navigation durch Seiten (Depth Limit).
    - Festlegen der **Seitenanzahl**, die maximal durchsucht werden soll (Page Count Limit).
-2. **URL-Eingabe**:
    - Benutzer können die Start-URL angeben, von der aus das Scraping beginnen soll.
-3. **Statusüberprüfung**:
    - Informiert, ob der Scraping-Vorgang noch läuft oder abgeschlossen ist.
-4. **Datenanzeige und -export**:
    - Nach Abschluss des Scraping-Prozesses werden die gesammelten Daten (z. B. URLs, Seitentitel und Inhalte) angezeigt.
    - Daten können im JSON-Format heruntergeladen werden.
-5. **Scrapy Spider-Integration**:
    - Der integrierte Spider navigiert durch die Webseiten, extrahiert Inhalte und folgt internen Links innerhalb derselben Domain.
    - Enthält eine Funktion zur Bereinigung von Text (Entfernung von HTML-Tags, Skripten und Stilen).

 ## Anleitung
+1. **Anwendung aufrufen**:
+   - Gehen Sie zur [Webspider-Anwendung](https://huggingface.co/spaces/datenwerkzeuge/webspider) auf Hugging Face.
+2. **Benutzerdefinierte Scraping-Parameter**:
    - Einstellung der maximalen **Tiefe** für die Navigation durch Seiten (Depth Limit).
    - Festlegen der **Seitenanzahl**, die maximal durchsucht werden soll (Page Count Limit).
+3. **URL-Eingabe**:
    - Benutzer können die Start-URL angeben, von der aus das Scraping beginnen soll.
+4. **Statusüberprüfung**:
    - Informiert, ob der Scraping-Vorgang noch läuft oder abgeschlossen ist.
+5. **Datenanzeige und -export**:
    - Nach Abschluss des Scraping-Prozesses werden die gesammelten Daten (z. B. URLs, Seitentitel und Inhalte) angezeigt.
    - Daten können im JSON-Format heruntergeladen werden.
+6. **Scrapy Spider-Integration**:
    - Der integrierte Spider navigiert durch die Webseiten, extrahiert Inhalte und folgt internen Links innerhalb derselben Domain.
    - Enthält eine Funktion zur Bereinigung von Text (Entfernung von HTML-Tags, Skripten und Stilen).

src/03_low_code/app_market_scraping/app_market_scraping.qmd CHANGED Viewed

@@ -13,6 +13,8 @@ image: _2f0cb788-71a6-4817-ab94-d38c346e4f6f.jpeg
 ## App Market Scraping
 ### 1. Installation des Google Play Scrapers
 Um den Google Play Scraper zu installieren, den folgenden Befehl verwenden:

 ## App Market Scraping
+Um Apps zu sammeln, besuchen Sie die [Google Play Search](../../02_basics/app_market/google-play-search.qmd) Anwendung. Diese Anwendung ermöglicht es Ihnen, nach Apps im Google Play Store zu suchen und die URLs der gefundenen Apps zu exportieren. Speichern Sie die exportierten URLs in einer CSV-Datei, die als Grundlage für die Auswertung dient.
 ### 1. Installation des Google Play Scrapers
 Um den Google Play Scraper zu installieren, den folgenden Befehl verwenden:

src/03_low_code/catalogue.qmd CHANGED Viewed

@@ -9,7 +9,7 @@ listing:
 ## Lernziele
-**Extraktion von Buchdaten von der Website "Books to Scrape" mit Python und BeautifulSoup**: Praktische Übung im Web-Scraping, um das gezielte extrahieren aus Datenstrukturen zu verstehen.
 ::: {#catalogue}
 :::

 ## Lernziele
+**Extraktion mit Python und BeautifulSoup**: Praktische Übung im Web-Scraping, um das gezielte extrahieren aus Datenstrukturen zu verstehen.
 ::: {#catalogue}
 :::

src/03_low_code/catalogue/quotes_scraper.ipynb CHANGED Viewed

@@ -5,12 +5,19 @@
    "metadata": {},
    "source": [
     "---\n",
-    "title: \"Web Scraping mit Python: Bücher von Books to Scrape\"\n",
     "description: \"Eine Anleitung zum Scraping von Zitate von der Website Quotes to Scrape, einschließlich Python-Beispielen und Datenexport.\"\n",
     "image: _2be49964-b89e-45be-8897-491eaa1aad84.jpeg\n",
     "---"
    ]
   },
   {
    "cell_type": "markdown",
    "metadata": {},

    "metadata": {},
    "source": [
     "---\n",
+    "title: \"Web Scraping mit Python: Zitate von Quotes to Scrape\"\n",
     "description: \"Eine Anleitung zum Scraping von Zitate von der Website Quotes to Scrape, einschließlich Python-Beispielen und Datenexport.\"\n",
     "image: _2be49964-b89e-45be-8897-491eaa1aad84.jpeg\n",
     "---"
    ]
   },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "[![](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/#fileId=https://huggingface.co/spaces/datenwerkzeuge/CDL-Webscraping-Workshop-2025/blob/main/src/03_low_code/catalogue/quotes_scraper.ipynb)"
+   ]
+  },
   {
    "cell_type": "markdown",
    "metadata": {},

src/03_low_code/video_transcripts/get_videos_for_youtube_channels.ipynb CHANGED Viewed

@@ -11,6 +11,13 @@
         "---"
       ]
     },
     {
       "cell_type": "markdown",
       "metadata": {},

         "---"
       ]
     },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "[![](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/#fileId=https://huggingface.co/spaces/datenwerkzeuge/CDL-Webscraping-Workshop-2025/blob/main/src/03_low_code/video_transcripts/get_videos_for_youtube_channels.ipynb)"
+      ]
+    },
     {
       "cell_type": "markdown",
       "metadata": {},

src/03_low_code/video_transcripts/youtube-transcript-extraction.ipynb CHANGED Viewed

@@ -11,6 +11,13 @@
     "---"
    ]
   },
   {
    "cell_type": "markdown",
    "metadata": {},

     "---"
    ]
   },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "[![](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/#fileId=https://huggingface.co/spaces/datenwerkzeuge/CDL-Webscraping-Workshop-2025/blob/main/src/03_low_code/video_transcripts/youtube-transcript-extraction.ipynb)"
+   ]
+  },
   {
    "cell_type": "markdown",
    "metadata": {},

src/04_use_case/forum/buergergeld_forum.ipynb CHANGED Viewed

@@ -10,6 +10,13 @@
         "---"
       ]
     },
     {
       "cell_type": "markdown",
       "metadata": {},

         "---"
       ]
     },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "[![](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/#fileId=https://huggingface.co/spaces/datenwerkzeuge/CDL-Webscraping-Workshop-2025/src/04_use_case/forum/buergergeld_forum.ipynb)"
+      ]
+    },
     {
       "cell_type": "markdown",
       "metadata": {},

src/04_use_case/jobs/Jobboerse_API.ipynb CHANGED Viewed

@@ -11,6 +11,13 @@
         "---"
       ]
     },
     {
       "cell_type": "markdown",
       "metadata": {},

         "---"
       ]
     },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "[![](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/#fileId=https://huggingface.co/spaces/datenwerkzeuge/CDL-Webscraping-Workshop-2025/src/04_use_case/jobs/Jobboerse_API.ipynb)"
+      ]
+    },
     {
       "cell_type": "markdown",
       "metadata": {},

src/04_use_case/laws/Gesetze_im_Internet_Aktualitätendienst.ipynb CHANGED Viewed

@@ -11,6 +11,13 @@
         "---"
       ]
     },
     {
       "cell_type": "markdown",
       "metadata": {},

         "---"
       ]
     },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "[![](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/#fileId=https://huggingface.co/spaces/datenwerkzeuge/CDL-Webscraping-Workshop-2025/src/04_use_case/laws/Gesetze_im_Internet_Aktualitätendienst.ipynb)"
+      ]
+    },
     {
       "cell_type": "markdown",
       "metadata": {},

src/_quarto.yml CHANGED Viewed

@@ -42,6 +42,8 @@ website:
               text: "Colab & GitHub🤝"
             - href: 01_setup/optional/quarto-lokal.qmd
               text: "Hallo Quarto✨"
     - title: "No Code"
       contents:
         - href: basics.qmd

               text: "Colab & GitHub🤝"
             - href: 01_setup/optional/quarto-lokal.qmd
               text: "Hallo Quarto✨"
+          - href: 01_setup/aufbereitung.qmd
+            text: "Aufbereitung🤩"
     - title: "No Code"
       contents:
         - href: basics.qmd