bsenst commited on
Commit
e392f4c
·
1 Parent(s): 1203cd3

add colab badges to ipynb, fix typos and minor bugs

Browse files
src/01_setup/agenda.qmd CHANGED
@@ -1,3 +1,7 @@
 
 
 
 
1
  ### Zeitplan
2
 
3
  - **16:00 Uhr**
@@ -60,7 +64,7 @@ graph LR
60
  style B fill:#FF66C4
61
  style A fill:#D9D9D9
62
 
63
- classDef blackText fill:#FFFFFF,stroke:#000000,color:#000000;
64
  class A,B,B1,B2,B3,C,C1,C2,C3,D,D1,D2,D3 blackText;
65
  ```
66
 
 
1
+ ---
2
+ title: "Agenda"
3
+ ---
4
+
5
  ### Zeitplan
6
 
7
  - **16:00 Uhr**
 
64
  style B fill:#FF66C4
65
  style A fill:#D9D9D9
66
 
67
+ classDef blackText stroke:#000000,color:#000000;
68
  class A,B,B1,B2,B3,C,C1,C2,C3,D,D1,D2,D3 blackText;
69
  ```
70
 
src/01_setup/aufbereitung.qmd ADDED
@@ -0,0 +1,140 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ title: "Werkzeuge zur Datenaufbereitung"
3
+ ---
4
+
5
+ Die Analyse gesammelter Daten ist ein wichtiger Schritt, um Erkenntnisse zu gewinnen und Entscheidungen zu unterstützen. Dieser Artikel stellt kostenlose Werkzeuge vor, die sich zur Analyse verschiedener Datentypen und -formate eignen. Dabei werden sowohl Textdateien, PDFs, Tabellen als auch andere Datenquellen berücksichtigt. Zudem beleuchten wir mögliche Ausgabeformate wie Texte, Visualisierungen, Mindmaps und Diagramme.
6
+
7
+ ## Textbasierte Daten
8
+
9
+ ### NotebookLM
10
+ **Beschreibung**: NotebookLM ist ein KI-gestütztes Tool, das dabei hilft, Textdokumente zu analysieren, Schlüsselbegriffe zu extrahieren und Zusammenfassungen zu erstellen.
11
+
12
+ **Datentypen**:
13
+
14
+ - Textdateien (z. B. `.txt`)
15
+ - PDFs
16
+
17
+ **Funktionen**:
18
+
19
+ - Zusammenfassung langer Texte
20
+ - Extraktion von Schlüsselbegriffen
21
+ - Beantwortung spezifischer Fragen zu den hochgeladenen Dokumenten
22
+
23
+ **Ausgabeformate**:
24
+
25
+ - Textzusammenfassungen
26
+ - Geordnete Listen von Schlüsselbegriffen
27
+
28
+ ### ChatGPT / Bing Chat
29
+ **Beschreibung**: KI-gestützte Chats wie ChatGPT und Bing Chat können genutzt werden, um Daten aus Texten oder strukturierten Formaten wie CSVs zu extrahieren, analysieren und interpretieren.
30
+
31
+ **Datentypen**:
32
+
33
+ - Texte
34
+ - CSV-Dateien (nach Konvertierung in Textformate)
35
+ - PDFs (nach Konvertierung in Textformate)
36
+
37
+ **Funktionen**:
38
+
39
+ - Datenanalyse und -interpretation
40
+ - Textzusammenfassungen
41
+ - Beantwortung spezifischer Fragen
42
+
43
+ **Ausgabeformate**:
44
+
45
+ - Texte
46
+ - Tabellen
47
+ - Bullet Points
48
+
49
+ ## Tabellen und strukturelle Daten
50
+
51
+ ### Microsoft Excel
52
+ **Beschreibung**: Excel bietet einfache Werkzeuge zur Bearbeitung und Analyse von Tabellen.
53
+
54
+ **Datentypen**:
55
+
56
+ - CSV-Dateien
57
+ - Excel-Dateien (`.xlsx`, `.xls`)
58
+
59
+ **Funktionen**:
60
+
61
+ - Datenfilterung und Sortierung
62
+ - Berechnung von Statistiken
63
+ - Erstellung von Diagrammen
64
+
65
+ **Ausgabeformate**:
66
+
67
+ - Zahlengrafiken (z. B. Balken- und Liniendiagramme)
68
+ - Tabellen
69
+
70
+ ### Google Colab
71
+ **Beschreibung**: Eine Plattform zur Nutzung von Python-Notebooks, die umfangreiche Bibliotheken wie Matplotlib oder Seaborn zur Visualisierung bietet.
72
+
73
+ **Datentypen**:
74
+
75
+ - CSV
76
+ - JSON
77
+ - Excel-Dateien
78
+
79
+ **Funktionen**:
80
+
81
+ - Erstellung komplexer Diagramme
82
+ - Datenbereinigung und Transformation
83
+
84
+ **Ausgabeformate**:
85
+
86
+ - Visualisierungen (z. B. Balken-, Linien-, Streudiagramme)
87
+ - Tabellen
88
+
89
+ ## Visuelle Ausgabemöglichkeiten
90
+
91
+ ```{dot}
92
+ graph G {
93
+ community_meeting -- awareness_campaign;
94
+ awareness_campaign -- petition;
95
+ petition -- community_meeting;
96
+ community_meeting -- local_government;
97
+ local_government -- policy_draft;
98
+ local_government -- resource_allocation;
99
+ policy_draft -- review;
100
+ review -- revision;
101
+ revision -- final_policy;
102
+ revision -- policy_draft;
103
+ final_policy -- resource_allocation;
104
+ review -- resource_allocation;
105
+ }
106
+ ```
107
+
108
+ ### Mermaid.js
109
+ **Beschreibung**: Ein Tool zur Erstellung von Diagrammen und Flussdiagrammen aus Textdefinitionen.
110
+
111
+ **Datentypen**:
112
+
113
+ - Textdateien mit Mermaid-Syntax
114
+
115
+ **Funktionen**:
116
+
117
+ - Erstellung von Diagrammen wie Flussdiagrammen, Gantt-Diagrammen, und mehr
118
+
119
+ **Ausgabeformate**:
120
+
121
+ - Diagramme in HTML oder SVG
122
+
123
+ **Beispiel**:
124
+ ```mermaid
125
+ graph TD
126
+ A[Start] --> B[Entscheidung]
127
+ B -->|Ja| C[Weiter]
128
+ B -->|Nein| D[Ende]
129
+ ```
130
+
131
+ ```{mermaid}
132
+ graph TD
133
+ A[Start] --> B[Entscheidung]
134
+ B -->|Ja| C[Weiter]
135
+ B -->|Nein| D[Ende]
136
+ ```
137
+
138
+ # Fazit
139
+
140
+ Die Wahl des richtigen Werkzeugs hängt vom Datentyp und den gewünschten Ausgabemöglichkeiten ab. Textbasierte Daten können hervorragend mit NotebookLM oder ChatGPT analysiert werden, während Tabellenformate in Excel oder Google Colab aufbereitet werden können. Für Visualisierungen und Mindmaps bieten Markmap.js und Mermaid.js innovative und einfache Lösungen. Mit diesen Tools lassen sich Daten effizient und professionell auswerten.
src/01_setup/erforderlich/colab.qmd CHANGED
@@ -53,7 +53,7 @@ image: _c6cbaab4-a264-43bf-8b0f-311e210cd959.jpeg
53
  - Wenn Gemini eine Lösung für den Fehler vorschlägt, klicke auf "Fix error".
54
  - Bewerte den Vorschlag und klicke auf "Accept suggestion" oder "Reject suggestion".
55
 
56
- ## Einführung in ChatGPT für die Code-Erstellung 📝
57
 
58
  Um Sprachmodelle optimal zu nutzen, ist es wichtig, klare und präzise Prompts zu erstellen. Ein guter Prompt enthält alle notwendigen Informationen, die ChatGPT benötigt, um eine hilfreiche Antwort zu geben.
59
 
 
53
  - Wenn Gemini eine Lösung für den Fehler vorschlägt, klicke auf "Fix error".
54
  - Bewerte den Vorschlag und klicke auf "Accept suggestion" oder "Reject suggestion".
55
 
56
+ ## ChatGPT für die Code-Erstellung 📝
57
 
58
  Um Sprachmodelle optimal zu nutzen, ist es wichtig, klare und präzise Prompts zu erstellen. Ein guter Prompt enthält alle notwendigen Informationen, die ChatGPT benötigt, um eine hilfreiche Antwort zu geben.
59
 
src/02_basics/pdf/pdf-link-extractor.qmd CHANGED
@@ -34,6 +34,10 @@ image: _30a8d023-6f69-46e3-8ae1-1d7555d04902.jpeg
34
  - Die Anwendung durchsucht die HTML-Datei nach PDF-Links, lädt die gefundenen PDFs herunter und stellt sie in einem ZIP-Archiv bereit.
35
  - Laden Sie das ZIP-Archiv herunter, um die gesammelten PDF-Dateien zu erhalten.
36
 
 
 
 
 
37
 
38
  ## Fazit
39
 
 
34
  - Die Anwendung durchsucht die HTML-Datei nach PDF-Links, lädt die gefundenen PDFs herunter und stellt sie in einem ZIP-Archiv bereit.
35
  - Laden Sie das ZIP-Archiv herunter, um die gesammelten PDF-Dateien zu erhalten.
36
 
37
+ ### 4. Auswertung der PDFs:
38
+ - Nutzen Sie kostenlose Werkzeuge wie NotebookLM, ChatGPT oder Bing Chat, um die Texte in den PDFs zu analysieren.
39
+ - Weitere Details zur Auswertung finden Sie in [Aufbereitung](../../01_setup/aufbereitung.qmd).
40
+
41
 
42
  ## Fazit
43
 
src/02_basics/webspider/webspider.qmd CHANGED
@@ -6,21 +6,24 @@ image: _24e522b8-a6d0-4212-a02e-7738b3098105.jpeg
6
 
7
  ## Anleitung
8
 
9
- 1. **Benutzerdefinierte Scraping-Parameter**:
 
 
 
10
  - Einstellung der maximalen **Tiefe** für die Navigation durch Seiten (Depth Limit).
11
  - Festlegen der **Seitenanzahl**, die maximal durchsucht werden soll (Page Count Limit).
12
 
13
- 2. **URL-Eingabe**:
14
  - Benutzer können die Start-URL angeben, von der aus das Scraping beginnen soll.
15
 
16
- 3. **Statusüberprüfung**:
17
  - Informiert, ob der Scraping-Vorgang noch läuft oder abgeschlossen ist.
18
 
19
- 4. **Datenanzeige und -export**:
20
  - Nach Abschluss des Scraping-Prozesses werden die gesammelten Daten (z. B. URLs, Seitentitel und Inhalte) angezeigt.
21
  - Daten können im JSON-Format heruntergeladen werden.
22
 
23
- 5. **Scrapy Spider-Integration**:
24
  - Der integrierte Spider navigiert durch die Webseiten, extrahiert Inhalte und folgt internen Links innerhalb derselben Domain.
25
  - Enthält eine Funktion zur Bereinigung von Text (Entfernung von HTML-Tags, Skripten und Stilen).
26
 
 
6
 
7
  ## Anleitung
8
 
9
+ 1. **Anwendung aufrufen**:
10
+ - Gehen Sie zur [Webspider-Anwendung](https://huggingface.co/spaces/datenwerkzeuge/webspider) auf Hugging Face.
11
+
12
+ 2. **Benutzerdefinierte Scraping-Parameter**:
13
  - Einstellung der maximalen **Tiefe** für die Navigation durch Seiten (Depth Limit).
14
  - Festlegen der **Seitenanzahl**, die maximal durchsucht werden soll (Page Count Limit).
15
 
16
+ 3. **URL-Eingabe**:
17
  - Benutzer können die Start-URL angeben, von der aus das Scraping beginnen soll.
18
 
19
+ 4. **Statusüberprüfung**:
20
  - Informiert, ob der Scraping-Vorgang noch läuft oder abgeschlossen ist.
21
 
22
+ 5. **Datenanzeige und -export**:
23
  - Nach Abschluss des Scraping-Prozesses werden die gesammelten Daten (z. B. URLs, Seitentitel und Inhalte) angezeigt.
24
  - Daten können im JSON-Format heruntergeladen werden.
25
 
26
+ 6. **Scrapy Spider-Integration**:
27
  - Der integrierte Spider navigiert durch die Webseiten, extrahiert Inhalte und folgt internen Links innerhalb derselben Domain.
28
  - Enthält eine Funktion zur Bereinigung von Text (Entfernung von HTML-Tags, Skripten und Stilen).
29
 
src/03_low_code/app_market_scraping/app_market_scraping.qmd CHANGED
@@ -13,6 +13,8 @@ image: _2f0cb788-71a6-4817-ab94-d38c346e4f6f.jpeg
13
 
14
  ## App Market Scraping
15
 
 
 
16
  ### 1. Installation des Google Play Scrapers
17
 
18
  Um den Google Play Scraper zu installieren, den folgenden Befehl verwenden:
 
13
 
14
  ## App Market Scraping
15
 
16
+ Um Apps zu sammeln, besuchen Sie die [Google Play Search](../../02_basics/app_market/google-play-search.qmd) Anwendung. Diese Anwendung ermöglicht es Ihnen, nach Apps im Google Play Store zu suchen und die URLs der gefundenen Apps zu exportieren. Speichern Sie die exportierten URLs in einer CSV-Datei, die als Grundlage für die Auswertung dient.
17
+
18
  ### 1. Installation des Google Play Scrapers
19
 
20
  Um den Google Play Scraper zu installieren, den folgenden Befehl verwenden:
src/03_low_code/catalogue.qmd CHANGED
@@ -9,7 +9,7 @@ listing:
9
 
10
  ## Lernziele
11
 
12
- **Extraktion von Buchdaten von der Website "Books to Scrape" mit Python und BeautifulSoup**: Praktische Übung im Web-Scraping, um das gezielte extrahieren aus Datenstrukturen zu verstehen.
13
 
14
  ::: {#catalogue}
15
  :::
 
9
 
10
  ## Lernziele
11
 
12
+ **Extraktion mit Python und BeautifulSoup**: Praktische Übung im Web-Scraping, um das gezielte extrahieren aus Datenstrukturen zu verstehen.
13
 
14
  ::: {#catalogue}
15
  :::
src/03_low_code/catalogue/quotes_scraper.ipynb CHANGED
@@ -5,12 +5,19 @@
5
  "metadata": {},
6
  "source": [
7
  "---\n",
8
- "title: \"Web Scraping mit Python: Bücher von Books to Scrape\"\n",
9
  "description: \"Eine Anleitung zum Scraping von Zitate von der Website Quotes to Scrape, einschließlich Python-Beispielen und Datenexport.\"\n",
10
  "image: _2be49964-b89e-45be-8897-491eaa1aad84.jpeg\n",
11
  "---"
12
  ]
13
  },
 
 
 
 
 
 
 
14
  {
15
  "cell_type": "markdown",
16
  "metadata": {},
 
5
  "metadata": {},
6
  "source": [
7
  "---\n",
8
+ "title: \"Web Scraping mit Python: Zitate von Quotes to Scrape\"\n",
9
  "description: \"Eine Anleitung zum Scraping von Zitate von der Website Quotes to Scrape, einschließlich Python-Beispielen und Datenexport.\"\n",
10
  "image: _2be49964-b89e-45be-8897-491eaa1aad84.jpeg\n",
11
  "---"
12
  ]
13
  },
14
+ {
15
+ "cell_type": "markdown",
16
+ "metadata": {},
17
+ "source": [
18
+ "[![](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/#fileId=https://huggingface.co/spaces/datenwerkzeuge/CDL-Webscraping-Workshop-2025/blob/main/src/03_low_code/catalogue/quotes_scraper.ipynb)"
19
+ ]
20
+ },
21
  {
22
  "cell_type": "markdown",
23
  "metadata": {},
src/03_low_code/video_transcripts/get_videos_for_youtube_channels.ipynb CHANGED
@@ -11,6 +11,13 @@
11
  "---"
12
  ]
13
  },
 
 
 
 
 
 
 
14
  {
15
  "cell_type": "markdown",
16
  "metadata": {},
 
11
  "---"
12
  ]
13
  },
14
+ {
15
+ "cell_type": "markdown",
16
+ "metadata": {},
17
+ "source": [
18
+ "[![](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/#fileId=https://huggingface.co/spaces/datenwerkzeuge/CDL-Webscraping-Workshop-2025/blob/main/src/03_low_code/video_transcripts/get_videos_for_youtube_channels.ipynb)"
19
+ ]
20
+ },
21
  {
22
  "cell_type": "markdown",
23
  "metadata": {},
src/03_low_code/video_transcripts/youtube-transcript-extraction.ipynb CHANGED
@@ -11,6 +11,13 @@
11
  "---"
12
  ]
13
  },
 
 
 
 
 
 
 
14
  {
15
  "cell_type": "markdown",
16
  "metadata": {},
 
11
  "---"
12
  ]
13
  },
14
+ {
15
+ "cell_type": "markdown",
16
+ "metadata": {},
17
+ "source": [
18
+ "[![](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/#fileId=https://huggingface.co/spaces/datenwerkzeuge/CDL-Webscraping-Workshop-2025/blob/main/src/03_low_code/video_transcripts/youtube-transcript-extraction.ipynb)"
19
+ ]
20
+ },
21
  {
22
  "cell_type": "markdown",
23
  "metadata": {},
src/04_use_case/forum/buergergeld_forum.ipynb CHANGED
@@ -10,6 +10,13 @@
10
  "---"
11
  ]
12
  },
 
 
 
 
 
 
 
13
  {
14
  "cell_type": "markdown",
15
  "metadata": {},
 
10
  "---"
11
  ]
12
  },
13
+ {
14
+ "cell_type": "markdown",
15
+ "metadata": {},
16
+ "source": [
17
+ "[![](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/#fileId=https://huggingface.co/spaces/datenwerkzeuge/CDL-Webscraping-Workshop-2025/src/04_use_case/forum/buergergeld_forum.ipynb)"
18
+ ]
19
+ },
20
  {
21
  "cell_type": "markdown",
22
  "metadata": {},
src/04_use_case/jobs/Jobboerse_API.ipynb CHANGED
@@ -11,6 +11,13 @@
11
  "---"
12
  ]
13
  },
 
 
 
 
 
 
 
14
  {
15
  "cell_type": "markdown",
16
  "metadata": {},
 
11
  "---"
12
  ]
13
  },
14
+ {
15
+ "cell_type": "markdown",
16
+ "metadata": {},
17
+ "source": [
18
+ "[![](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/#fileId=https://huggingface.co/spaces/datenwerkzeuge/CDL-Webscraping-Workshop-2025/src/04_use_case/jobs/Jobboerse_API.ipynb)"
19
+ ]
20
+ },
21
  {
22
  "cell_type": "markdown",
23
  "metadata": {},
src/04_use_case/laws/Gesetze_im_Internet_Aktualitätendienst.ipynb CHANGED
@@ -11,6 +11,13 @@
11
  "---"
12
  ]
13
  },
 
 
 
 
 
 
 
14
  {
15
  "cell_type": "markdown",
16
  "metadata": {},
 
11
  "---"
12
  ]
13
  },
14
+ {
15
+ "cell_type": "markdown",
16
+ "metadata": {},
17
+ "source": [
18
+ "[![](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/#fileId=https://huggingface.co/spaces/datenwerkzeuge/CDL-Webscraping-Workshop-2025/src/04_use_case/laws/Gesetze_im_Internet_Aktualitätendienst.ipynb)"
19
+ ]
20
+ },
21
  {
22
  "cell_type": "markdown",
23
  "metadata": {},
src/_quarto.yml CHANGED
@@ -42,6 +42,8 @@ website:
42
  text: "Colab & GitHub🤝"
43
  - href: 01_setup/optional/quarto-lokal.qmd
44
  text: "Hallo Quarto✨"
 
 
45
  - title: "No Code"
46
  contents:
47
  - href: basics.qmd
 
42
  text: "Colab & GitHub🤝"
43
  - href: 01_setup/optional/quarto-lokal.qmd
44
  text: "Hallo Quarto✨"
45
+ - href: 01_setup/aufbereitung.qmd
46
+ text: "Aufbereitung🤩"
47
  - title: "No Code"
48
  contents:
49
  - href: basics.qmd