clean up structure
Browse files- src/{agenda.qmd → 01_setup/agenda.qmd} +1 -1
- src/01_setup/vorbereitung.qmd +50 -0
- src/02_basics/app_market.qmd +10 -0
- src/02_basics/pdf.qmd +10 -0
- src/02_basics/webspider.qmd +10 -0
- src/_quarto.yml +8 -3
- src/basics.qmd +8 -27
- src/index.qmd +7 -45
src/{agenda.qmd → 01_setup/agenda.qmd}
RENAMED
@@ -1,4 +1,4 @@
|
|
1 |
-
### **Agenda für den Workshop
|
2 |
|
3 |
- **16:00 – 16:15 Uhr**
|
4 |
Begrüßung und Einführung
|
|
|
1 |
+
### **Agenda für den Workshop**
|
2 |
|
3 |
- **16:00 – 16:15 Uhr**
|
4 |
Begrüßung und Einführung
|
src/01_setup/vorbereitung.qmd
ADDED
@@ -0,0 +1,50 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
title: "Vorbereitung"
|
3 |
+
listing:
|
4 |
+
- id: erforderlich
|
5 |
+
contents: "erforderlich"
|
6 |
+
type: grid
|
7 |
+
- id: optional
|
8 |
+
contents: "optional"
|
9 |
+
type: grid
|
10 |
+
---
|
11 |
+
|
12 |
+
Einrichten der Nutzerkonten zur Nutzung der kostenlosen Ressourcen Google Colab und Huggingface.
|
13 |
+
|
14 |
+
## Inhaltliche Vorbereitung
|
15 |
+
|
16 |
+
**Wählt eine Webseite aus, über die ihr mehr erfahren möchtet.**
|
17 |
+
|
18 |
+
* "Ich möchte Informationen über die Webseite 'Avaaz' sammeln, um mehr über globale Kampagnen zu erfahren."
|
19 |
+
* "Ich bin daran interessiert, mehr über 'Change.org' zu lernen, insbesondere im Hinblick auf Petitionen und deren Wirkung."
|
20 |
+
* "Die Webseite 'Amnesty International' interessiert mich, da ich dort viele Ressourcen zu Menschenrechten finde."
|
21 |
+
|
22 |
+
**Denkt über einen Themenbereich nach, über den ihr gerne PDFs recherchieren würdet.**
|
23 |
+
|
24 |
+
* "Ich möchte PDFs über Strategien zur Förderung von Partizipation und Demokratie recherchieren."
|
25 |
+
* "Ich suche nach PDFs, die sich mit den Auswirkungen von Klimawandel auf soziale Gerechtigkeit befassen."
|
26 |
+
* "PDFs über die Rolle und Organisation von NGOs in globalen Kontexten interessieren mich."
|
27 |
+
|
28 |
+
**Überlegt euch einen Bereich, über den ihr euch gerne über Apps informieren lassen möchtet.**
|
29 |
+
|
30 |
+
* "Ich möchte Apps kennenlernen, die zur Unterstützung von Gemeinschaftsprojekten beitragen."
|
31 |
+
* "Ich interessiere mich für Apps, die den Austausch und die Vernetzung von Aktivisten erleichtern."
|
32 |
+
* "Apps, die zur Mobilisierung und Organisation von Bürger*inneninitiativen nützlich sind, interessieren mich."
|
33 |
+
|
34 |
+
**Bringt eine Liste von YouTube-Videos oder eine YouTube-Playliste mit, deren Umfang eure erfügbare Zeit strapazieren würde und sich daher für Zusammenfassungen anbietet.**
|
35 |
+
|
36 |
+
* "Eine Playlist von Vorträgen über globale Klimapolitik von verschiedenen internationalen Konferenzen, die zusammen mehrere Stunden dauern."
|
37 |
+
* "Ein Kanal, der ausführliche Dokumentationen über Menschenrechtsverletzungen weltweit zeigt, wobei jedes Video mindestens eine Stunde lang ist."
|
38 |
+
* "Eine Serie von Interviews mit zivilgesellschaftlichen Akteuren und Experten zum Thema Demokratieförderung, die insgesamt einen ganzen Tag ansehen würde."
|
39 |
+
* "Lange Diskussionsrunden und Panelgespräche über soziale Gerechtigkeit, die aufgrund ihrer Tiefe und Länge schwer in einer Sitzung zu bearbeiten sind."
|
40 |
+
* "Eine Sammlung von Workshops und Tutorials zu organisatorischen Strategien für NGOs, die zusammen mehrere Tage in Anspruch nehmen würden."
|
41 |
+
|
42 |
+
## Nutzerkonten einrichten
|
43 |
+
|
44 |
+
::: {#erforderlich}
|
45 |
+
:::
|
46 |
+
|
47 |
+
## Optional
|
48 |
+
|
49 |
+
::: {#optional}
|
50 |
+
:::
|
src/02_basics/app_market.qmd
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
title: "App Marktplatz beobachten"
|
3 |
+
listing:
|
4 |
+
- id: app_market
|
5 |
+
contents: "app_market"
|
6 |
+
type: grid
|
7 |
+
---
|
8 |
+
|
9 |
+
::: {#app_market}
|
10 |
+
:::
|
src/02_basics/pdf.qmd
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
title: "PDFs auswerten"
|
3 |
+
listing:
|
4 |
+
- id: pdf
|
5 |
+
contents: "pdf"
|
6 |
+
type: grid
|
7 |
+
---
|
8 |
+
|
9 |
+
::: {#pdf}
|
10 |
+
:::
|
src/02_basics/webspider.qmd
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
title: "Die erste Webspider"
|
3 |
+
listing:
|
4 |
+
- id: webspider
|
5 |
+
contents: "webspider"
|
6 |
+
type: grid
|
7 |
+
---
|
8 |
+
|
9 |
+
::: {#webspider}
|
10 |
+
:::
|
src/_quarto.yml
CHANGED
@@ -4,8 +4,6 @@ website:
|
|
4 |
title: "🧭 Collecting Data on the Web - Webscraping Workshop 2025"
|
5 |
navbar:
|
6 |
left:
|
7 |
-
- href: agenda.qmd
|
8 |
-
text: "📅 Agenda"
|
9 |
- href: index.qmd
|
10 |
text: "1️⃣ Start"
|
11 |
- href: basics.qmd
|
@@ -24,7 +22,10 @@ website:
|
|
24 |
contents:
|
25 |
- href: index.qmd
|
26 |
text: "Willkommen"
|
27 |
-
-
|
|
|
|
|
|
|
28 |
contents:
|
29 |
- href: 01_setup/erforderlich/google-konto.qmd
|
30 |
text: "Google Konto erstellen"
|
@@ -33,6 +34,7 @@ website:
|
|
33 |
- href: 01_setup/erforderlich/huggingface.qmd
|
34 |
text: "Huggingface Ressourcen"
|
35 |
- section: "Optional"
|
|
|
36 |
contents:
|
37 |
- href: 01_setup/optional/colab-github.qmd
|
38 |
text: "Colab nach GitHub speichern"
|
@@ -43,16 +45,19 @@ website:
|
|
43 |
- href: basics.qmd
|
44 |
text: "No Code Übersicht"
|
45 |
- section: "PDF"
|
|
|
46 |
contents:
|
47 |
- href: 02_basics/pdf/pdf-link-extractor.qmd
|
48 |
text: "PDF Link Extractor"
|
49 |
- href: 02_basics/pdf/pdf-grouping.qmd
|
50 |
text: "PDF Grouping"
|
51 |
- section: "App Marketplace"
|
|
|
52 |
contents:
|
53 |
- href: 02_basics/app_market/google-play-search.qmd
|
54 |
text: "Google Play Search"
|
55 |
- section: "Webspider"
|
|
|
56 |
contents:
|
57 |
- href: 02_basics/webspider/website-url-extractor.qmd
|
58 |
text: "URL Extractor"
|
|
|
4 |
title: "🧭 Collecting Data on the Web - Webscraping Workshop 2025"
|
5 |
navbar:
|
6 |
left:
|
|
|
|
|
7 |
- href: index.qmd
|
8 |
text: "1️⃣ Start"
|
9 |
- href: basics.qmd
|
|
|
22 |
contents:
|
23 |
- href: index.qmd
|
24 |
text: "Willkommen"
|
25 |
+
- href: 01_setup/agenda.qmd
|
26 |
+
text: "Agenda 📅"
|
27 |
+
- section: "Vorbereitung"
|
28 |
+
href: 01_setup/vorbereitung.qmd
|
29 |
contents:
|
30 |
- href: 01_setup/erforderlich/google-konto.qmd
|
31 |
text: "Google Konto erstellen"
|
|
|
34 |
- href: 01_setup/erforderlich/huggingface.qmd
|
35 |
text: "Huggingface Ressourcen"
|
36 |
- section: "Optional"
|
37 |
+
href: 01_setup/vorbereitung.html#optional
|
38 |
contents:
|
39 |
- href: 01_setup/optional/colab-github.qmd
|
40 |
text: "Colab nach GitHub speichern"
|
|
|
45 |
- href: basics.qmd
|
46 |
text: "No Code Übersicht"
|
47 |
- section: "PDF"
|
48 |
+
href: 02_basics/pdf.qmd
|
49 |
contents:
|
50 |
- href: 02_basics/pdf/pdf-link-extractor.qmd
|
51 |
text: "PDF Link Extractor"
|
52 |
- href: 02_basics/pdf/pdf-grouping.qmd
|
53 |
text: "PDF Grouping"
|
54 |
- section: "App Marketplace"
|
55 |
+
href: 02_basics/app_market.qmd
|
56 |
contents:
|
57 |
- href: 02_basics/app_market/google-play-search.qmd
|
58 |
text: "Google Play Search"
|
59 |
- section: "Webspider"
|
60 |
+
href: 02_basics/webspider.qmd
|
61 |
contents:
|
62 |
- href: 02_basics/webspider/website-url-extractor.qmd
|
63 |
text: "URL Extractor"
|
src/basics.qmd
CHANGED
@@ -1,36 +1,17 @@
|
|
1 |
---
|
2 |
-
title: "No Code Übersicht"
|
3 |
listing:
|
4 |
-
- id:
|
5 |
-
contents: "02_basics/pdf"
|
6 |
-
type: grid
|
7 |
-
- id: app_market
|
8 |
-
contents: "02_basics/app_market"
|
9 |
-
type: grid
|
10 |
-
- id: webspider
|
11 |
-
contents: "02_basics/webspider"
|
12 |
type: grid
|
13 |
---
|
14 |
|
15 |
-
|
16 |
|
17 |
-
|
18 |
-
:::
|
19 |
|
20 |
-
|
21 |
-
|
|
|
22 |
|
23 |
-
::: {#
|
24 |
:::
|
25 |
-
|
26 |
-
### **Bereits verfügbares Werkzeug:**
|
27 |
-
- **[Webspider](https://huggingface.co/spaces/datenwerkzeuge/webspider)**:
|
28 |
-
Diese App ermöglicht es, eine angegebene Webseite zu durchsuchen und strukturierte Daten wie URLs, Titel und Inhalte zu extrahieren. Die Ergebnisse werden übersichtlich angezeigt und können im JSON-Format heruntergeladen werden. Nutzer können dabei die Tiefe der Navigation und die maximale Seitenanzahl individuell einstellen, um die Datensammlung an ihre Bedürfnisse anzupassen.
|
29 |
-
- **[PDFs-Sammeln](https://huggingface.co/spaces/datenwerkzeuge/pdfs-sammeln)**:
|
30 |
-
Diese App durchsucht eine angegebene Webseite oder eine hochgeladene HTML-Datei nach PDF-Links, lädt die gefundenen PDF-Dokumente herunter und erstellt daraus eine ZIP-Datei. Nutzer können die Datei samt einer Übersicht der gefundenen PDFs (inklusive Dateigröße) direkt herunterladen. Das Tool ermöglicht es, PDF-Dokumente effizient zu sammeln und organisiert bereitzustellen.
|
31 |
-
- **[PDF Keyword Grouping App](https://huggingface.co/spaces/datenwerkzeuge/PDF-Keyword-Grouping-App)**:
|
32 |
-
Dieses Tool analysiert den Textinhalt hochgeladener PDFs, extrahiert Schlüsselbegriffe und gruppiert die Dokumente basierend auf den ausgewählten Themen oder Keywords. Es verwendet fortschrittliche KI-Modelle für semantische Textanalyse und Zuordnung. Am Ende können die gruppierten PDFs als ZIP-Datei heruntergeladen werden, um sie übersichtlich zu organisieren und effizient weiterzuverarbeiten.
|
33 |
-
- **[Google Play App Search](https://huggingface.co/spaces/datenwerkzeuge/Google-Play-App-Search)**:
|
34 |
-
Dieses Tool ermöglicht die Suche nach Apps im Google Play Store anhand eines eingegebenen Suchbegriffs. Die Ergebnisse enthalten Details wie App-Titel, Entwickler, Bewertung und einen direkten Link zur App im Store. Zusätzlich wird eine separate Liste mit allen URLs der gefundenen Apps bereitgestellt, um eine schnelle Weiterverarbeitung zu ermöglichen.
|
35 |
-
- **[Webseiten-URL-Extraktor](https://huggingface.co/spaces/datenwerkzeuge/Webseiten-URL-Extraktor)**:
|
36 |
-
Dieses Tool extrahiert automatisch alle Links von einer angegebenen Webseite. Es listet die URLs übersichtlich auf und bietet somit eine einfache Möglichkeit, alle relevanten Verweise einer Seite zu sammeln. Perfekt für die Analyse und Weiterverarbeitung von Webseiteninhalten.
|
|
|
1 |
---
|
|
|
2 |
listing:
|
3 |
+
- id: no_code
|
4 |
+
contents: ["/02_basics/webspider.qmd","/02_basics/pdf.qmd","/02_basics/app_market.qmd"]
|
|
|
|
|
|
|
|
|
|
|
|
|
5 |
type: grid
|
6 |
---
|
7 |
|
8 |
+
## Lernziele
|
9 |
|
10 |
+
**Verwendung von No-Code-Tools für Webscraping**:
|
|
|
11 |
|
12 |
+
* Einsatz von Tools wie dem Webseiten-URL-Extraktor zur automatischen Extraktion von Links zur Veranschaulichung des Webscraping Prozesses. Verwendung einer einfachen Webspider.
|
13 |
+
* Anwendung von PDF-Link-Extractor-Tools zur systematischen Sammlung von PDFs und Nutzung der PDF-Keyword-Grouping-App zur thematischen Gruppierung.
|
14 |
+
* Identifizierung und Auswertung von Apps eines individuellen Themenbereich (bspw. zivilgesellschaftlich oder Gesundheit).
|
15 |
|
16 |
+
::: {#no_code}
|
17 |
:::
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
src/index.qmd
CHANGED
@@ -1,27 +1,13 @@
|
|
1 |
-
---
|
2 |
-
title: "Willkommen"
|
3 |
-
listing:
|
4 |
-
- id: erforderlich
|
5 |
-
contents: "01_setup/erforderlich"
|
6 |
-
type: grid
|
7 |
-
- id: optional
|
8 |
-
contents: "01_setup/optional"
|
9 |
-
type: grid
|
10 |
-
---
|
11 |
-
|
12 |
-
Herzlich willkommen zum Webscraping Workshop! In diesem Workshop lernen Sie, wie Sie Daten aus dem Web extrahieren und analysieren können. Egal, ob Sie Anfänger oder Fortgeschrittener sind, dieser Workshop bietet Ihnen wertvolle Einblicke und praktische Erfahrungen.
|
13 |
|
14 |
-
|
15 |
-
:::
|
16 |
|
17 |
-
|
18 |
-
:::
|
19 |
|
20 |
-
|
21 |
|
22 |
-
|
23 |
|
24 |
-
### Links:
|
25 |
|
26 |
Auf der linken Seite finden Sie eine Übersicht aller Inhalte und Module des Workshops. Diese Navigationsleiste ermöglicht es Ihnen, schnell zu den verschiedenen Kapiteln und Abschnitten zu springen, die Sie interessieren.
|
27 |
|
@@ -29,33 +15,9 @@ Auf der linken Seite finden Sie eine Übersicht aller Inhalte und Module des Wor
|
|
29 |
|
30 |
Auf der rechten Seite finden Sie eine Übersicht der aktuellen Seite. Diese Seitenübersicht hilft Ihnen, den Überblick über die Struktur und die Unterthemen des aktuellen Kapitels zu behalten. Sie können leicht zwischen den Abschnitten navigieren, ohne die Hauptseite zu verlassen.
|
31 |
|
32 |
-
###
|
33 |
-
|
34 |
-
Oben links befindet sich die Suchfunktion. Hier können Sie nach spezifischen Themen, Begriffen oder Kapiteln suchen, um schnell die Informationen zu finden, die Sie benötigen. Geben Sie einfach ein Stichwort ein, und die Suchfunktion zeigt Ihnen relevante Ergebnisse aus dem gesamten Workshop.
|
35 |
-
|
36 |
-
---
|
37 |
-
|
38 |
-
## Workshop-Inhalte 📚
|
39 |
-
|
40 |
-
### Einleitung 🚀
|
41 |
-
|
42 |
-
Wir beginnen mit einer Einführung in die Grundlagen des Webscrapings, einschließlich der wichtigsten Konzepte und Werkzeuge, die Sie benötigen.
|
43 |
-
|
44 |
-
### Tools und Technologien 🛠️
|
45 |
-
|
46 |
-
Erfahren Sie mehr über die verschiedenen Tools und Technologien, die im Webscraping verwendet werden, wie zum Beispiel BeautifulSoup, Scrapy und Selenium.
|
47 |
-
|
48 |
-
### Praktische Übungen ✍️
|
49 |
-
|
50 |
-
Setzen Sie Ihr Wissen in die Praxis um! Durch praktische Übungen und Projekte können Sie das Gelernte anwenden und wertvolle Erfahrungen sammeln.
|
51 |
-
|
52 |
-
### Weiterführende Themen 🔍
|
53 |
-
|
54 |
-
Entdecken Sie weiterführende Themen wie das Scraping von APIs, das Management großer Datenmengen und ethische Überlegungen beim Webscraping.
|
55 |
-
|
56 |
-
---
|
57 |
|
58 |
-
|
59 |
|
60 |
---
|
61 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
2 |
+
Herzlich willkommen zum Webscraping Workshop! Egal, ob Sie Anfänger oder Fortgeschrittener sind, dieser Workshop bietet Ihnen wertvolle Einblicke und praktische Erfahrungen.
|
|
|
3 |
|
4 |
+
## Navigation auf der Workshop Webseite 🧭
|
|
|
5 |
|
6 |
+
### Oben: Workshopschritte 👣
|
7 |
|
8 |
+
Die Top-Navigationsleiste bietet Ihnen schnellen Zugriff auf die wichtigsten Bereiche des Workshops. Über die Links in der Leiste können Sie zur Agenda, zur Startseite, zu den No-Code- und Low-Code-Webscraping-Seiten sowie zu einem spezifischen Anwendungsfall navigieren.
|
9 |
|
10 |
+
### Links: Abschnittüberblick 🗂️
|
11 |
|
12 |
Auf der linken Seite finden Sie eine Übersicht aller Inhalte und Module des Workshops. Diese Navigationsleiste ermöglicht es Ihnen, schnell zu den verschiedenen Kapiteln und Abschnitten zu springen, die Sie interessieren.
|
13 |
|
|
|
15 |
|
16 |
Auf der rechten Seite finden Sie eine Übersicht der aktuellen Seite. Diese Seitenübersicht hilft Ihnen, den Überblick über die Struktur und die Unterthemen des aktuellen Kapitels zu behalten. Sie können leicht zwischen den Abschnitten navigieren, ohne die Hauptseite zu verlassen.
|
17 |
|
18 |
+
### Rechts oben: Suchfunktion 🔍
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
19 |
|
20 |
+
Oben links befindet sich die Suchfunktion. Hier können Sie nach spezifischen Themen, Begriffen oder Kapiteln suchen, um schnell die Informationen zu finden, die Sie benötigen. Geben Sie einfach ein Stichwort ein, und die Suchfunktion zeigt Ihnen relevante Ergebnisse aus dem gesamten Workshop. Zusätzlich finden sich in der Leiste Werkzeuge wie Diskussionsforen und das Code-Repository auf Hugging Face, die helfen, sich mit anderen auszutauschen und auf den Quellcode zuzugreifen.
|
21 |
|
22 |
---
|
23 |
|