update learning goals and formating
Browse files
src/02_basics/app_market/google-play-search.qmd
CHANGED
@@ -6,10 +6,11 @@ image: _9d81d3d2-f372-476b-beb6-fe6a4841739b.jpeg
|
|
6 |
|
7 |
Der [google-play-scraper](https://pypi.org/project/google-play-scraper/) ist ein Beispiel für eine einfache und benutzerfreundliche Bibliothek, die speziell für das Scraping von Daten aus dem Google Play Store entwickelt wurde. Es bietet eine direkte Möglichkeit, App-Informationen wie Bewertungen, Beschreibungen und Entwicklerdetails zu extrahieren, ohne dass eine API oder komplexe Webscraping-Techniken erforderlich sind. Die Nutzung ist unkompliziert und erfordert nur wenige Zeilen Code.
|
8 |
|
9 |
-
|
10 |
## Lernziel
|
11 |
|
12 |
* Zu mehreren Themengebieten Listen an Links zu Anwendungen im Google Play Marktplatz erstellen und vergleichen.
|
|
|
13 |
|
14 |
## Anleitung zur Nutzung der Google-Play-App-Suche
|
15 |
|
|
|
6 |
|
7 |
Der [google-play-scraper](https://pypi.org/project/google-play-scraper/) ist ein Beispiel für eine einfache und benutzerfreundliche Bibliothek, die speziell für das Scraping von Daten aus dem Google Play Store entwickelt wurde. Es bietet eine direkte Möglichkeit, App-Informationen wie Bewertungen, Beschreibungen und Entwicklerdetails zu extrahieren, ohne dass eine API oder komplexe Webscraping-Techniken erforderlich sind. Die Nutzung ist unkompliziert und erfordert nur wenige Zeilen Code.
|
8 |
|
9 |
+
::: {.callout-tip}
|
10 |
## Lernziel
|
11 |
|
12 |
* Zu mehreren Themengebieten Listen an Links zu Anwendungen im Google Play Marktplatz erstellen und vergleichen.
|
13 |
+
:::
|
14 |
|
15 |
## Anleitung zur Nutzung der Google-Play-App-Suche
|
16 |
|
src/02_basics/pdf.qmd
CHANGED
@@ -7,9 +7,11 @@ listing:
|
|
7 |
type: grid
|
8 |
---
|
9 |
|
|
|
10 |
## Lernziel
|
11 |
|
12 |
* Anwendung von PDF-Link-Extractor-Tools zur systematischen Sammlung von PDFs und Nutzung der PDF-Keyword-Grouping-App zur thematischen Gruppierung.
|
|
|
13 |
|
14 |
::: {#pdf}
|
15 |
:::
|
|
|
7 |
type: grid
|
8 |
---
|
9 |
|
10 |
+
::: {.callout-tip}
|
11 |
## Lernziel
|
12 |
|
13 |
* Anwendung von PDF-Link-Extractor-Tools zur systematischen Sammlung von PDFs und Nutzung der PDF-Keyword-Grouping-App zur thematischen Gruppierung.
|
14 |
+
:::
|
15 |
|
16 |
::: {#pdf}
|
17 |
:::
|
src/02_basics/webspider.qmd
CHANGED
@@ -7,9 +7,11 @@ listing:
|
|
7 |
type: grid
|
8 |
---
|
9 |
|
|
|
10 |
## Lernziel
|
11 |
|
12 |
* Einsatz von Tools wie dem Webseiten-URL-Extraktor zur automatischen Extraktion von Links zur Veranschaulichung des Webscraping Prozesses. Verwendung einer einfachen Webspider.
|
|
|
13 |
|
14 |
## Webscraping & Webspider
|
15 |
|
|
|
7 |
type: grid
|
8 |
---
|
9 |
|
10 |
+
::: {.callout-tip}
|
11 |
## Lernziel
|
12 |
|
13 |
* Einsatz von Tools wie dem Webseiten-URL-Extraktor zur automatischen Extraktion von Links zur Veranschaulichung des Webscraping Prozesses. Verwendung einer einfachen Webspider.
|
14 |
+
:::
|
15 |
|
16 |
## Webscraping & Webspider
|
17 |
|
src/02_basics/webspider/website-url-extractor.qmd
CHANGED
@@ -4,10 +4,12 @@ description: "Ein Tool zur Extraktion und Darstellung aller Links von einer ange
|
|
4 |
image: _1fca0884-d58a-4271-b90f-90afcb2c4be9.jpeg
|
5 |
---
|
6 |
|
|
|
7 |
## Lernziele
|
8 |
|
9 |
* Was ist eine URLs?
|
10 |
* Aus welchen Bestandteilen besteht eine URLs?
|
|
|
11 |
|
12 |
## Funktionen
|
13 |
- **Webseitenanalyse**: Automatische Extraktion aller URLs von einer Webseite.
|
@@ -61,10 +63,13 @@ Die Auflistungsfunktion wiederholt die Extraktion für jeden Link im Dokument un
|
|
61 |
|
62 |
Das Webseiten-URL-Extraktor-Tool bietet verdeutlicht das Filtern von Links auf Webseiten oder aus HTML-Dateien, indem es nur vollständige URLs darstellt.
|
63 |
|
|
|
64 |
### Was ist eine URL?
|
65 |
|
66 |
Eine **URL** (Uniform Resource Locator) ist die Adresse eines bestimmten Dokuments oder Ressourcen im Internet. Sie dient dazu, Webanwendungen und -dienste eindeutig zu identifizieren und darauf zuzugreifen.
|
|
|
67 |
|
|
|
68 |
### Bestandteile einer URL
|
69 |
|
70 |
Eine typische URL besteht aus mehreren Teilen:
|
@@ -80,8 +85,10 @@ Eine typische URL besteht aus mehreren Teilen:
|
|
80 |
- **Query-Parameter**: Optional; verwendet, um zusätzliche Daten an den Server zu übergeben, oft nach einem `?` (z.B. `?id=123&name=test`).
|
81 |
|
82 |
- **Fragment**: Optional; identifiziert einen bestimmten Teil der Ressource, häufig verwendet in HTML-Dokumenten für interne Navigation (z.B. `#abschnitt`).
|
|
|
83 |
|
84 |
-
|
|
|
85 |
|
86 |
```plaintext
|
87 |
https://www.example.com:443/pfad/zur/ressource.html?id=123&name=test#abschnitt
|
@@ -95,6 +102,7 @@ https://www.example.com:443/pfad/zur/ressource.html?id=123&name=test#abschnitt
|
|
95 |
* Fragment: `abschnitt`
|
96 |
|
97 |
Mit dieser Struktur kann ein Browser oder ein anderes Netzwerkprogramm die genaue Adresse einer Ressource im Internet bestimmen und darauf zugreifen.
|
|
|
98 |
|
99 |
## Anwendungsfall
|
100 |
|
|
|
4 |
image: _1fca0884-d58a-4271-b90f-90afcb2c4be9.jpeg
|
5 |
---
|
6 |
|
7 |
+
::: {.callout-tip}
|
8 |
## Lernziele
|
9 |
|
10 |
* Was ist eine URLs?
|
11 |
* Aus welchen Bestandteilen besteht eine URLs?
|
12 |
+
:::
|
13 |
|
14 |
## Funktionen
|
15 |
- **Webseitenanalyse**: Automatische Extraktion aller URLs von einer Webseite.
|
|
|
63 |
|
64 |
Das Webseiten-URL-Extraktor-Tool bietet verdeutlicht das Filtern von Links auf Webseiten oder aus HTML-Dateien, indem es nur vollständige URLs darstellt.
|
65 |
|
66 |
+
::: {.callout-tip}
|
67 |
### Was ist eine URL?
|
68 |
|
69 |
Eine **URL** (Uniform Resource Locator) ist die Adresse eines bestimmten Dokuments oder Ressourcen im Internet. Sie dient dazu, Webanwendungen und -dienste eindeutig zu identifizieren und darauf zuzugreifen.
|
70 |
+
:::
|
71 |
|
72 |
+
::: {.callout-tip collapse="true"}
|
73 |
### Bestandteile einer URL
|
74 |
|
75 |
Eine typische URL besteht aus mehreren Teilen:
|
|
|
85 |
- **Query-Parameter**: Optional; verwendet, um zusätzliche Daten an den Server zu übergeben, oft nach einem `?` (z.B. `?id=123&name=test`).
|
86 |
|
87 |
- **Fragment**: Optional; identifiziert einen bestimmten Teil der Ressource, häufig verwendet in HTML-Dokumenten für interne Navigation (z.B. `#abschnitt`).
|
88 |
+
:::
|
89 |
|
90 |
+
::: {.callout-tip collapse="true"}
|
91 |
+
### Beispiel einer vollständigen URL
|
92 |
|
93 |
```plaintext
|
94 |
https://www.example.com:443/pfad/zur/ressource.html?id=123&name=test#abschnitt
|
|
|
102 |
* Fragment: `abschnitt`
|
103 |
|
104 |
Mit dieser Struktur kann ein Browser oder ein anderes Netzwerkprogramm die genaue Adresse einer Ressource im Internet bestimmen und darauf zugreifen.
|
105 |
+
:::
|
106 |
|
107 |
## Anwendungsfall
|
108 |
|
src/02_basics/webspider/webspider.qmd
CHANGED
@@ -4,12 +4,14 @@ description: "Eine private Webanwendung zur Extraktion strukturierter Daten von
|
|
4 |
image: _24e522b8-a6d0-4212-a02e-7738b3098105.jpeg
|
5 |
---
|
6 |
|
|
|
7 |
## Lernziel
|
8 |
|
9 |
- Start-URLs und URL-Verwaltung
|
10 |
- HTTP-Anfragen und Datenextraktion
|
11 |
- Links folgen und Crawl-Tiefe
|
12 |
- Datenverarbeitung und -speicherung
|
|
|
13 |
|
14 |
## Anleitung
|
15 |
|
|
|
4 |
image: _24e522b8-a6d0-4212-a02e-7738b3098105.jpeg
|
5 |
---
|
6 |
|
7 |
+
::: {.callout-tip}
|
8 |
## Lernziel
|
9 |
|
10 |
- Start-URLs und URL-Verwaltung
|
11 |
- HTTP-Anfragen und Datenextraktion
|
12 |
- Links folgen und Crawl-Tiefe
|
13 |
- Datenverarbeitung und -speicherung
|
14 |
+
:::
|
15 |
|
16 |
## Anleitung
|
17 |
|
src/03_low_code/app_market_scraping/app_market_scraping.ipynb
CHANGED
@@ -27,12 +27,14 @@
|
|
27 |
"cell_type": "markdown",
|
28 |
"metadata": {},
|
29 |
"source": [
|
|
|
30 |
"## Lernziele\n",
|
31 |
"\n",
|
32 |
"- Installation des Google Play Scrapers\n",
|
33 |
"- Einlesen einer CSV-Datei mit App-URLs\n",
|
34 |
"- Abrufen von App-Informationen über einen Loop\n",
|
35 |
-
"- Visualisierung der abgerufenen Daten"
|
|
|
36 |
]
|
37 |
},
|
38 |
{
|
@@ -145,11 +147,11 @@
|
|
145 |
"source": [
|
146 |
"import matplotlib.pyplot as plt\n",
|
147 |
"\n",
|
148 |
-
"# Histogramm der App
|
149 |
"plt.figure(figsize=(10, 6))\n",
|
150 |
-
"plt.hist(app_info_df['
|
151 |
-
"plt.title('Verteilung der App
|
152 |
-
"plt.xlabel('
|
153 |
"plt.ylabel('Anzahl der Apps')\n",
|
154 |
"plt.show()"
|
155 |
]
|
|
|
27 |
"cell_type": "markdown",
|
28 |
"metadata": {},
|
29 |
"source": [
|
30 |
+
"::: {.callout-tip}\n",
|
31 |
"## Lernziele\n",
|
32 |
"\n",
|
33 |
"- Installation des Google Play Scrapers\n",
|
34 |
"- Einlesen einer CSV-Datei mit App-URLs\n",
|
35 |
"- Abrufen von App-Informationen über einen Loop\n",
|
36 |
+
"- Visualisierung der abgerufenen Daten\n",
|
37 |
+
":::"
|
38 |
]
|
39 |
},
|
40 |
{
|
|
|
147 |
"source": [
|
148 |
"import matplotlib.pyplot as plt\n",
|
149 |
"\n",
|
150 |
+
"# Histogramm der App Installationszahlen\n",
|
151 |
"plt.figure(figsize=(10, 6))\n",
|
152 |
+
"plt.hist(app_info_df['realInstalls'], bins=20, color='skyblue', edgecolor='black')\n",
|
153 |
+
"plt.title('Verteilung der App Installationszahlen')\n",
|
154 |
+
"plt.xlabel('Installationen')\n",
|
155 |
"plt.ylabel('Anzahl der Apps')\n",
|
156 |
"plt.show()"
|
157 |
]
|