Spaces:

datenwerkzeuge
/

CDL-Webscraping-Workshop-2025

Sleeping

App Files Files Community

bsenst commited on Jan 1

Commit

4c464b0

1 Parent(s): c171b42

details start und no code überarbeitet, repo actions hinzugefügt

Browse files

Files changed (10) hide show

src/01_setup/agenda.qmd +6 -0
src/01_setup/aufbereitung.qmd +5 -58
src/01_setup/optional/colab-github.qmd +0 -2
src/01_setup/optional/quarto-lokal.qmd +2 -2
src/02_basics/app_market/google-play-search.qmd +3 -0
src/02_basics/webspider.qmd +21 -1
src/02_basics/webspider/CDL Espresso Talk 27. November 2024 (1).png +0 -0
src/02_basics/webspider/CDL Espresso Talk 27. November 2024.png +0 -0
src/02_basics/webspider/website-url-extractor.qmd +20 -0
src/_quarto.yml +5 -5

src/01_setup/agenda.qmd CHANGED Viewed

@@ -2,6 +2,12 @@
 title: "Agenda"
 ---
 ### Zeitplan
 - **16:00 Uhr**

 title: "Agenda"
 ---
+Im Workshop werden wir in einem dreistufigen Prozess vorgehen. Im ersten Schritt nutzen wir einfache Anwendungen, um Daten zu sammeln. Dies wird hier unter dem Begriff "No Code" zusammengefasst. Ursprünglich bedeutet No Code, das Programmieren zu umgehen, indem man eine interaktive Benutzeroberfläche verwendet.
+Im zweiten Schritt werden wir in einem Notebook mit Hilfe großer Sprachmodelle Computeranweisungen erstellen. Durch die Unterstützung dieser Sprachmodelle ist keine Programmierkenntnis vorausgesetzt, was den Einstieg erheblich erleichtert.
+Schließlich, im letzten Schritt, sollen die erlernten Kenntnisse auf konkrete Anwendungsfälle angewandt werden, um die praktische Nutzung und den Mehrwert dieser Techniken zu demonstrieren.
 ### Zeitplan
 - **16:00 Uhr**

src/01_setup/aufbereitung.qmd CHANGED Viewed

@@ -4,10 +4,10 @@ title: "Werkzeuge zur Datenaufbereitung"
 Die Analyse gesammelter Daten ist ein wichtiger Schritt, um Erkenntnisse zu gewinnen und Entscheidungen zu unterstützen. Dieser Artikel stellt kostenlose Werkzeuge vor, die sich zur Analyse verschiedener Datentypen und -formate eignen. Dabei werden sowohl Textdateien, PDFs, Tabellen als auch andere Datenquellen berücksichtigt. Zudem beleuchten wir mögliche Ausgabeformate wie Texte, Visualisierungen, Mindmaps und Diagramme.
-## Textbasierte Daten
 ### NotebookLM
-**Beschreibung**: NotebookLM ist ein KI-gestütztes Tool, das dabei hilft, Textdokumente zu analysieren, Schlüsselbegriffe zu extrahieren und Zusammenfassungen zu erstellen.
 **Datentypen**:
@@ -26,7 +26,7 @@ Die Analyse gesammelter Daten ist ein wichtiger Schritt, um Erkenntnisse zu gewi
 - Geordnete Listen von Schlüsselbegriffen
 ### ChatGPT / Bing Chat
-**Beschreibung**: KI-gestützte Chats wie ChatGPT und Bing Chat können genutzt werden, um Daten aus Texten oder strukturierten Formaten wie CSVs zu extrahieren, analysieren und interpretieren.
 **Datentypen**:
@@ -46,7 +46,7 @@ Die Analyse gesammelter Daten ist ein wichtiger Schritt, um Erkenntnisse zu gewi
 - Tabellen
 - Bullet Points
-## Tabellen und strukturelle Daten
 ### Microsoft Excel
 **Beschreibung**: Excel bietet einfache Werkzeuge zur Bearbeitung und Analyse von Tabellen.
@@ -68,7 +68,7 @@ Die Analyse gesammelter Daten ist ein wichtiger Schritt, um Erkenntnisse zu gewi
 - Tabellen
 ### Google Colab
-**Beschreibung**: Eine Plattform zur Nutzung von Python-Notebooks, die umfangreiche Bibliotheken wie Matplotlib oder Seaborn zur Visualisierung bietet.
 **Datentypen**:
@@ -85,56 +85,3 @@ Die Analyse gesammelter Daten ist ein wichtiger Schritt, um Erkenntnisse zu gewi
 - Visualisierungen (z. B. Balken-, Linien-, Streudiagramme)
 - Tabellen
-## Visuelle Ausgabemöglichkeiten
-```{dot}
-graph G {
-  community_meeting -- awareness_campaign;
-  awareness_campaign -- petition;
-  petition -- community_meeting;
-  community_meeting -- local_government;
-  local_government -- policy_draft;
-  local_government -- resource_allocation;
-  policy_draft -- review;
-  review -- revision;
-  revision -- final_policy;
-  revision -- policy_draft;
-  final_policy -- resource_allocation;
-  review -- resource_allocation;
-}
-```
-### Mermaid.js
-**Beschreibung**: Ein Tool zur Erstellung von Diagrammen und Flussdiagrammen aus Textdefinitionen.
-**Datentypen**:
-- Textdateien mit Mermaid-Syntax
-**Funktionen**:
-- Erstellung von Diagrammen wie Flussdiagrammen, Gantt-Diagrammen, und mehr
-**Ausgabeformate**:
-- Diagramme in HTML oder SVG
-**Beispiel**:
-```mermaid
-graph TD
-    A[Start] --> B[Entscheidung]
-    B -->|Ja| C[Weiter]
-    B -->|Nein| D[Ende]
-```
-```{mermaid}
-graph TD
-    A[Start] --> B[Entscheidung]
-    B -->|Ja| C[Weiter]
-    B -->|Nein| D[Ende]
-```
-# Fazit
-Die Wahl des richtigen Werkzeugs hängt vom Datentyp und den gewünschten Ausgabemöglichkeiten ab. Textbasierte Daten können hervorragend mit NotebookLM oder ChatGPT analysiert werden, während Tabellenformate in Excel oder Google Colab aufbereitet werden können. Für Visualisierungen und Mindmaps bieten Markmap.js und Mermaid.js innovative und einfache Lösungen. Mit diesen Tools lassen sich Daten effizient und professionell auswerten.

 Die Analyse gesammelter Daten ist ein wichtiger Schritt, um Erkenntnisse zu gewinnen und Entscheidungen zu unterstützen. Dieser Artikel stellt kostenlose Werkzeuge vor, die sich zur Analyse verschiedener Datentypen und -formate eignen. Dabei werden sowohl Textdateien, PDFs, Tabellen als auch andere Datenquellen berücksichtigt. Zudem beleuchten wir mögliche Ausgabeformate wie Texte, Visualisierungen, Mindmaps und Diagramme.
+## Texte
 ### NotebookLM
+**Beschreibung**: [NotebookLM](https://notebooklm.google.com/) ist ein KI-gestütztes Tool, das dabei hilft, Textdokumente zu analysieren, Schlüsselbegriffe zu extrahieren und Zusammenfassungen zu erstellen.
 **Datentypen**:
 - Geordnete Listen von Schlüsselbegriffen
 ### ChatGPT / Bing Chat
+**Beschreibung**: KI-gestützte Chats wie [ChatGPT](https://chatgpt.com/) und [Bing Chat](https://copilot.microsoft.com/) können genutzt werden, um Daten aus Texten oder strukturierten Formaten wie CSVs zu extrahieren, analysieren und interpretieren.
 **Datentypen**:
 - Tabellen
 - Bullet Points
+## Tabellen
 ### Microsoft Excel
 **Beschreibung**: Excel bietet einfache Werkzeuge zur Bearbeitung und Analyse von Tabellen.
 - Tabellen
 ### Google Colab
+**Beschreibung**: [Colab](erforderlich/colab.qmd) ist eine Plattform zur Nutzung von Python-Notebooks, die umfangreiche Bibliotheken wie Matplotlib oder Seaborn zur Visualisierung bietet.
 **Datentypen**:
 - Visualisierungen (z. B. Balken-, Linien-, Streudiagramme)
 - Tabellen

src/01_setup/optional/colab-github.qmd CHANGED Viewed

@@ -18,8 +18,6 @@ image: _bebbf63f-874e-4d27-b6a5-f0e0116fd587.jpeg
    - Klicke auf dein Profilbild in der oberen rechten Ecke und wähle "Settings".
    - Hier kannst du dein Profilbild, deinen Namen und eine kurze Beschreibung hinzufügen.
----
 ## Verbinden eines Colab-Notebooks mit GitHub 💻
 ### 1: Ein neues Notebook erstellen oder öffnen

    - Klicke auf dein Profilbild in der oberen rechten Ecke und wähle "Settings".
    - Hier kannst du dein Profilbild, deinen Namen und eine kurze Beschreibung hinzufügen.
 ## Verbinden eines Colab-Notebooks mit GitHub 💻
 ### 1: Ein neues Notebook erstellen oder öffnen

src/01_setup/optional/quarto-lokal.qmd CHANGED Viewed

@@ -38,11 +38,11 @@ Hier sind die Schritte, um das Repository `https://huggingface.co/spaces/datenwe
 1. **Lade das Quarto-Tarball herunter**:
    ```bash
-   wget https://github.com/quarto-dev/quarto-cli/releases/download/v1.6.39/quarto-1.6.39-linux-arm64.deb
    ```
 2. **Installiere das Tarball-Paket**:
    ```bash
-   sudo dpkg -i quarto-1.6.39-linux-arm64.deb
    ```
 3. **Löse eventuelle Abhängigkeiten**:
    ```bash

 1. **Lade das Quarto-Tarball herunter**:
    ```bash
+   wget https://github.com/quarto-dev/quarto-cli/releases/download/v1.6.39/quarto-1.6.39-linux-amd64.deb
    ```
 2. **Installiere das Tarball-Paket**:
    ```bash
+   sudo dpkg -i quarto-1.6.39-linux-amd64.deb
    ```
 3. **Löse eventuelle Abhängigkeiten**:
    ```bash

src/02_basics/app_market/google-play-search.qmd CHANGED Viewed

@@ -4,6 +4,9 @@ description: "Dieses Tool durchsucht den Google Play Store nach Apps durchsuchen
 image: _9d81d3d2-f372-476b-beb6-fe6a4841739b.jpeg
 ---
 ## Lernziel
 * Zu mehreren Themengebieten Listen an Links zu Anwendungen im Google Play Marktplatz erstellen und vergleichen.

 image: _9d81d3d2-f372-476b-beb6-fe6a4841739b.jpeg
 ---
+Der [google-play-scraper](https://pypi.org/project/google-play-scraper/) ist ein Beispiel für eine einfache und benutzerfreundliche Bibliothek, die speziell für das Scraping von Daten aus dem Google Play Store entwickelt wurde. Es bietet eine direkte Möglichkeit, App-Informationen wie Bewertungen, Beschreibungen und Entwicklerdetails zu extrahieren, ohne dass eine API oder komplexe Webscraping-Techniken erforderlich sind. Die Nutzung ist unkompliziert und erfordert nur wenige Zeilen Code.
 ## Lernziel
 * Zu mehreren Themengebieten Listen an Links zu Anwendungen im Google Play Marktplatz erstellen und vergleichen.

src/02_basics/webspider.qmd CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
 title: "Die erste Webspider"
-description: "Den Webscraping nachvollziehen durch automatisches URL Extrahieren und durchlaufen von verlinkten Webseiten."
 listing:
   - id: webspider
     contents: "webspider"
@@ -11,5 +11,25 @@ listing:
 * Einsatz von Tools wie dem Webseiten-URL-Extraktor zur automatischen Extraktion von Links zur Veranschaulichung des Webscraping Prozesses. Verwendung einer einfachen Webspider.
 ::: {#webspider}
 :::

 ---
 title: "Die erste Webspider"
+description: "Den Webscrapingprozess nachvollziehen durch automatisches URL Extrahieren und durchlaufen von verlinkten Webseiten."
 listing:
   - id: webspider
     contents: "webspider"
 * Einsatz von Tools wie dem Webseiten-URL-Extraktor zur automatischen Extraktion von Links zur Veranschaulichung des Webscraping Prozesses. Verwendung einer einfachen Webspider.
+## Webscraping & Webspider
+<p align="center">
+  <img src="webspider/CDL%20Espresso%20Talk%2027.%20November%202024.png" alt="CDL Espresso Talk 27. November 2024 - Webscraping" width="50%">
+</p>
+Das erste Bild illustriert die Funktionsweise eines **Web Spiders** oder Webscrapers mit dem Scrapy Framework. Hierbei wird der Prozess des Webcrawlings und -scrapings in mehreren Schritten dargestellt.
+## Webcrawling
+<p align="center">
+  <img src="webspider/CDL%20Espresso%20Talk%2027.%20November%202024%20(1).png" alt="CDL Espresso Talk 27. November 2024 - Webcrawling" width="50%">
+</p>
+Das Bild zum **Webcrawling** zeigt einen Baumdiagramm, der die strukturelle Navigation durch eine Website veranschaulicht. Hierbei handelt es sich um einen Startpunkt (Startseite), von dem aus verschiedene Projektseiten (z.B. "Projekt 1", "Projekt 2", "Projekt 3"... "Projekt D") und deren Details (z.B. "Details Projekt 1", "Details Projekt A" usw.) durch einen Webcrawler systematisch durchsucht werden. Der Webcrawler folgt dabei Links von einer Seite zur nächsten und sammelt Informationen. Dies geschieht typischerweise, um Daten für Suchmaschinenindizes zu sammeln oder um Inhalte zu analysieren.
+Insgesamt zeigen die Bilder die Systematik und den Ablauf von Webspider- und Webscraping-Techniken, die sowohl für das Durchsuchen (Crawling) als auch für das gezielte Extrahieren (Scraping) von Daten eingesetzt werden.
+## Tutorials
 ::: {#webspider}
 :::

src/02_basics/webspider/CDL Espresso Talk 27. November 2024 (1).png ADDED Viewed

src/02_basics/webspider/CDL Espresso Talk 27. November 2024.png ADDED Viewed

src/02_basics/webspider/website-url-extractor.qmd CHANGED Viewed

@@ -29,6 +29,26 @@ image: _1fca0884-d58a-4271-b90f-90afcb2c4be9.jpeg
    - Auf die Schaltfläche **"URLs extrahieren"** klicken.
    - Die App extrahiert alle Links aus der hochgeladenen HTML-Datei und zeigt sie an. Nur vollständige Links, die mit `http` beginnen, werden angezeigt.
 ### 4. Ergebnisse anzeigen
    - Die extrahierten URLs werden in einer übersichtlichen Liste angezeigt. Die Links können direkt angeklickt werden, um sie zu öffnen.

    - Auf die Schaltfläche **"URLs extrahieren"** klicken.
    - Die App extrahiert alle Links aus der hochgeladenen HTML-Datei und zeigt sie an. Nur vollständige Links, die mit `http` beginnen, werden angezeigt.
+**Blick in den Quelltext:**
+```python
+links = [a.get('href') for a in soup.find_all('a', href=True)]
+```
+Der Code extrahiert alle URLs aus den `<a>`-Tags eines HTML-Dokuments und speichert sie in der Liste links.
+1. ```python
+soup.find_all('a', href=True)
+```
+Diese Methode durchsucht das HTML-Dokument nach allen `<a>`-Tags, die ein href-Attribut besitzen. soup ist dabei ein BeautifulSoup-Objekt, das das HTML-Dokument repräsentiert.
+2. ```python
+a.get('href')
+```
+Für jedes gefundene `<a>`-Tag wird der Wert des href-Attributs extrahiert.
+3. ```python
+[a.get('href') for a in soup.find_all('a', href=True)]
+```
+Die Auflistungsfunktion wiederholt die Extraktion für jeden Link im Dokument und erstellt eine Liste aller href-Werte (URLs) der gefundenen `<a>`-Tags.
 ### 4. Ergebnisse anzeigen
    - Die extrahierten URLs werden in einer übersichtlichen Liste angezeigt. Die Links können direkt angeklickt werden, um sie zu öffnen.

src/_quarto.yml CHANGED Viewed

@@ -3,6 +3,11 @@ project:
 website:
   title: "🧭 Collecting Data on the Web - Webscraping Workshop 2025"
   page-navigation: true
   navbar:
     left:
       - href: index.qmd
@@ -13,11 +18,6 @@ website:
         text: "3️⃣ Low Code"
       - href: use_case.qmd
         text: "4️⃣ Anwendungsfall"
-    tools:
-      - icon: chat-dots
-        href: https://huggingface.co/spaces/datenwerkzeuge/CDL-Webscraping-Workshop-2025/discussions
-      - icon: code-slash
-        href: https://huggingface.co/spaces/datenwerkzeuge/CDL-Webscraping-Workshop-2025/tree/main
   sidebar:
     - title: "Start"
       contents:

 website:
   title: "🧭 Collecting Data on the Web - Webscraping Workshop 2025"
   page-navigation: true
+  repo-actions: [edit, source, issue]
+  repo-url: https://huggingface.co/spaces/datenwerkzeuge/CDL-Webscraping-Workshop-2025/
+  repo-subdir: src
+  repo-link-target: _blank
+  issue-url: https://huggingface.co/spaces/datenwerkzeuge/CDL-Webscraping-Workshop-2025/discussions
   navbar:
     left:
       - href: index.qmd
         text: "3️⃣ Low Code"
       - href: use_case.qmd
         text: "4️⃣ Anwendungsfall"
   sidebar:
     - title: "Start"
       contents: