Spaces:

datenwerkzeuge
/

CDL-Webscraping-Workshop-2025

Sleeping

App Files Files Community

bsenst commited on Jan 20

Commit

287c4f6

1 Parent(s): 79a12c3

update learning goals and formating

Browse files

Files changed (6) hide show

src/02_basics/app_market/google-play-search.qmd +2 -1
src/02_basics/pdf.qmd +2 -0
src/02_basics/webspider.qmd +2 -0
src/02_basics/webspider/website-url-extractor.qmd +9 -1
src/02_basics/webspider/webspider.qmd +2 -0
src/03_low_code/app_market_scraping/app_market_scraping.ipynb +7 -5

src/02_basics/app_market/google-play-search.qmd CHANGED Viewed

@@ -6,10 +6,11 @@ image: _9d81d3d2-f372-476b-beb6-fe6a4841739b.jpeg
 Der [google-play-scraper](https://pypi.org/project/google-play-scraper/) ist ein Beispiel für eine einfache und benutzerfreundliche Bibliothek, die speziell für das Scraping von Daten aus dem Google Play Store entwickelt wurde. Es bietet eine direkte Möglichkeit, App-Informationen wie Bewertungen, Beschreibungen und Entwicklerdetails zu extrahieren, ohne dass eine API oder komplexe Webscraping-Techniken erforderlich sind. Die Nutzung ist unkompliziert und erfordert nur wenige Zeilen Code.
 ## Lernziel
 * Zu mehreren Themengebieten Listen an Links zu Anwendungen im Google Play Marktplatz erstellen und vergleichen.
 ## Anleitung zur Nutzung der Google-Play-App-Suche

 Der [google-play-scraper](https://pypi.org/project/google-play-scraper/) ist ein Beispiel für eine einfache und benutzerfreundliche Bibliothek, die speziell für das Scraping von Daten aus dem Google Play Store entwickelt wurde. Es bietet eine direkte Möglichkeit, App-Informationen wie Bewertungen, Beschreibungen und Entwicklerdetails zu extrahieren, ohne dass eine API oder komplexe Webscraping-Techniken erforderlich sind. Die Nutzung ist unkompliziert und erfordert nur wenige Zeilen Code.
+::: {.callout-tip}
 ## Lernziel
 * Zu mehreren Themengebieten Listen an Links zu Anwendungen im Google Play Marktplatz erstellen und vergleichen.
+:::
 ## Anleitung zur Nutzung der Google-Play-App-Suche

src/02_basics/pdf.qmd CHANGED Viewed

@@ -7,9 +7,11 @@ listing:
     type: grid
 ---
 ## Lernziel
 * Anwendung von PDF-Link-Extractor-Tools zur systematischen Sammlung von PDFs und Nutzung der PDF-Keyword-Grouping-App zur thematischen Gruppierung.
 ::: {#pdf}
 :::

     type: grid
 ---
+::: {.callout-tip}
 ## Lernziel
 * Anwendung von PDF-Link-Extractor-Tools zur systematischen Sammlung von PDFs und Nutzung der PDF-Keyword-Grouping-App zur thematischen Gruppierung.
+:::
 ::: {#pdf}
 :::

src/02_basics/webspider.qmd CHANGED Viewed

@@ -7,9 +7,11 @@ listing:
     type: grid
 ---
 ## Lernziel
 * Einsatz von Tools wie dem Webseiten-URL-Extraktor zur automatischen Extraktion von Links zur Veranschaulichung des Webscraping Prozesses. Verwendung einer einfachen Webspider.
 ## Webscraping & Webspider

     type: grid
 ---
+::: {.callout-tip}
 ## Lernziel
 * Einsatz von Tools wie dem Webseiten-URL-Extraktor zur automatischen Extraktion von Links zur Veranschaulichung des Webscraping Prozesses. Verwendung einer einfachen Webspider.
+:::
 ## Webscraping & Webspider

src/02_basics/webspider/website-url-extractor.qmd CHANGED Viewed

@@ -4,10 +4,12 @@ description: "Ein Tool zur Extraktion und Darstellung aller Links von einer ange
 image: _1fca0884-d58a-4271-b90f-90afcb2c4be9.jpeg
 ---
 ## Lernziele
 * Was ist eine URLs?
 * Aus welchen Bestandteilen besteht eine URLs?
 ## Funktionen
 - **Webseitenanalyse**: Automatische Extraktion aller URLs von einer Webseite.
@@ -61,10 +63,13 @@ Die Auflistungsfunktion wiederholt die Extraktion für jeden Link im Dokument un
 Das Webseiten-URL-Extraktor-Tool bietet verdeutlicht das Filtern von Links auf Webseiten oder aus HTML-Dateien, indem es nur vollständige URLs darstellt.
 ### Was ist eine URL?
 Eine **URL** (Uniform Resource Locator) ist die Adresse eines bestimmten Dokuments oder Ressourcen im Internet. Sie dient dazu, Webanwendungen und -dienste eindeutig zu identifizieren und darauf zuzugreifen.
 ### Bestandteile einer URL
 Eine typische URL besteht aus mehreren Teilen:
@@ -80,8 +85,10 @@ Eine typische URL besteht aus mehreren Teilen:
 - **Query-Parameter**: Optional; verwendet, um zusätzliche Daten an den Server zu übergeben, oft nach einem `?` (z.B. `?id=123&name=test`).
 - **Fragment**: Optional; identifiziert einen bestimmten Teil der Ressource, häufig verwendet in HTML-Dokumenten für interne Navigation (z.B. `#abschnitt`).
-### Beispiel einer vollständigen URL:
 ```plaintext
 https://www.example.com:443/pfad/zur/ressource.html?id=123&name=test#abschnitt
@@ -95,6 +102,7 @@ https://www.example.com:443/pfad/zur/ressource.html?id=123&name=test#abschnitt
 * Fragment: `abschnitt`
 Mit dieser Struktur kann ein Browser oder ein anderes Netzwerkprogramm die genaue Adresse einer Ressource im Internet bestimmen und darauf zugreifen.
 ## Anwendungsfall

 image: _1fca0884-d58a-4271-b90f-90afcb2c4be9.jpeg
 ---
+::: {.callout-tip}
 ## Lernziele
 * Was ist eine URLs?
 * Aus welchen Bestandteilen besteht eine URLs?
+:::
 ## Funktionen
 - **Webseitenanalyse**: Automatische Extraktion aller URLs von einer Webseite.
 Das Webseiten-URL-Extraktor-Tool bietet verdeutlicht das Filtern von Links auf Webseiten oder aus HTML-Dateien, indem es nur vollständige URLs darstellt.
+::: {.callout-tip}
 ### Was ist eine URL?
 Eine **URL** (Uniform Resource Locator) ist die Adresse eines bestimmten Dokuments oder Ressourcen im Internet. Sie dient dazu, Webanwendungen und -dienste eindeutig zu identifizieren und darauf zuzugreifen.
+:::
+::: {.callout-tip collapse="true"}
 ### Bestandteile einer URL
 Eine typische URL besteht aus mehreren Teilen:
 - **Query-Parameter**: Optional; verwendet, um zusätzliche Daten an den Server zu übergeben, oft nach einem `?` (z.B. `?id=123&name=test`).
 - **Fragment**: Optional; identifiziert einen bestimmten Teil der Ressource, häufig verwendet in HTML-Dokumenten für interne Navigation (z.B. `#abschnitt`).
+:::
+::: {.callout-tip collapse="true"}
+### Beispiel einer vollständigen URL
 ```plaintext
 https://www.example.com:443/pfad/zur/ressource.html?id=123&name=test#abschnitt
 * Fragment: `abschnitt`
 Mit dieser Struktur kann ein Browser oder ein anderes Netzwerkprogramm die genaue Adresse einer Ressource im Internet bestimmen und darauf zugreifen.
+:::
 ## Anwendungsfall

src/02_basics/webspider/webspider.qmd CHANGED Viewed

@@ -4,12 +4,14 @@ description: "Eine private Webanwendung zur Extraktion strukturierter Daten von
 image: _24e522b8-a6d0-4212-a02e-7738b3098105.jpeg
 ---
 ## Lernziel
 - Start-URLs und URL-Verwaltung
 - HTTP-Anfragen und Datenextraktion
 - Links folgen und Crawl-Tiefe
 - Datenverarbeitung und -speicherung
 ## Anleitung

 image: _24e522b8-a6d0-4212-a02e-7738b3098105.jpeg
 ---
+::: {.callout-tip}
 ## Lernziel
 - Start-URLs und URL-Verwaltung
 - HTTP-Anfragen und Datenextraktion
 - Links folgen und Crawl-Tiefe
 - Datenverarbeitung und -speicherung
+:::
 ## Anleitung

src/03_low_code/app_market_scraping/app_market_scraping.ipynb CHANGED Viewed

@@ -27,12 +27,14 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
     "## Lernziele\n",
     "\n",
     "- Installation des Google Play Scrapers\n",
     "- Einlesen einer CSV-Datei mit App-URLs\n",
     "- Abrufen von App-Informationen über einen Loop\n",
-    "- Visualisierung der abgerufenen Daten"
    ]
   },
   {
@@ -145,11 +147,11 @@
    "source": [
     "import matplotlib.pyplot as plt\n",
     "\n",
-    "# Histogramm der App-Bewertungen\n",
     "plt.figure(figsize=(10, 6))\n",
-    "plt.hist(app_info_df['score'], bins=20, color='skyblue', edgecolor='black')\n",
-    "plt.title('Verteilung der App-Bewertungen')\n",
-    "plt.xlabel('Bewertung')\n",
     "plt.ylabel('Anzahl der Apps')\n",
     "plt.show()"
    ]

    "cell_type": "markdown",
    "metadata": {},
    "source": [
+    "::: {.callout-tip}\n",
     "## Lernziele\n",
     "\n",
     "- Installation des Google Play Scrapers\n",
     "- Einlesen einer CSV-Datei mit App-URLs\n",
     "- Abrufen von App-Informationen über einen Loop\n",
+    "- Visualisierung der abgerufenen Daten\n",
+    ":::"
    ]
   },
   {
    "source": [
     "import matplotlib.pyplot as plt\n",
     "\n",
+    "# Histogramm der App Installationszahlen\n",
     "plt.figure(figsize=(10, 6))\n",
+    "plt.hist(app_info_df['realInstalls'], bins=20, color='skyblue', edgecolor='black')\n",
+    "plt.title('Verteilung der App Installationszahlen')\n",
+    "plt.xlabel('Installationen')\n",
     "plt.ylabel('Anzahl der Apps')\n",
     "plt.show()"
    ]