Spaces:

datenwerkzeuge
/

CDL-Webscraping-Workshop-2025

Sleeping

App Files Files Community

bsenst commited on Jan 12

Commit

c8dd415

1 Parent(s): c920b3d

qmd to ipynb

Browse files

Files changed (7) hide show

src/03_low_code/app_market_scraping/app_market_scraping.ipynb +171 -0
src/03_low_code/app_market_scraping/app_market_scraping.qmd +0 -94
src/03_low_code/catalogue/bookstoscrape.ipynb +187 -0
src/03_low_code/catalogue/bookstoscrape.qmd +0 -103
src/_quarto.yml +2 -2
src/assets/App_Market_Scraping.ipynb +0 -0
src/low_code.qmd +1 -1

src/03_low_code/app_market_scraping/app_market_scraping.ipynb ADDED Viewed

	@@ -0,0 +1,171 @@

+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "---\n",
+    "title: \"App-Market-Scraping\"\n",
+    "description: \"Extraktion und Analyse von App-Marktdaten, einschließlich benutzerdefinierter Suchparameter und Datenexport.\"\n",
+    "image: _2f0cb788-71a6-4817-ab94-d38c346e4f6f.jpeg\n",
+    "format: \n",
+    "  html:\n",
+    "    toc: true\n",
+    "    code-tools: true\n",
+    "jupyter: python3\n",
+    "---"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "[![](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/#fileId=https://huggingface.co/spaces/datenwerkzeuge/CDL-Webscraping-Workshop-2025/blob/main/src/03_low_code/app_market_scraping/app_market_scraping.ipynb)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Lernziele\n",
+    "\n",
+    "- Installation des Google Play Scrapers\n",
+    "- Einlesen einer CSV-Datei mit App-URLs\n",
+    "- Abrufen von App-Informationen über einen Loop\n",
+    "- Visualisierung der abgerufenen Daten"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## App Market Scraping\n",
+    "\n",
+    "Um Apps zu sammeln, besuchen Sie die [Google Play Search](../../02_basics/app_market/google-play-search.qmd) Anwendung. Diese Anwendung ermöglicht es Ihnen, nach Apps im Google Play Store zu suchen und die URLs der gefundenen Apps zu exportieren. Speichern Sie die exportierten URLs in einer CSV-Datei, die als Grundlage für die Auswertung dient."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### 1. Installation des Google Play Scrapers\n",
+    "\n",
+    "In einem Colab Notebook, installiere die Google-Play-Scraper Bibliothek mit dem folgenden Befehl:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "! pip install google-play-scraper"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### 2. Einlesen einer CSV-Datei mit App-URLs\n",
+    "\n",
+    "Eine CSV-Datei (`app_urls.csv`) erstellen, die eine Spalte url enthält, welche die URLs der Google Play Store Apps auflistet. Beispiel:\n",
+    "\n",
+    "```python\n",
+    "url\n",
+    "https://play.google.com/store/apps/details?id=com.example.app1\n",
+    "https://play.google.com/store/apps/details?id=com.example.app2\n",
+    "```\n",
+    "\n",
+    "Die CSV-Datei in ein Pandas DataFrame einlesen:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import pandas as pd\n",
+    "\n",
+    "# CSV-Datei einlesen\n",
+    "df = pd.read_csv('app_urls.csv')"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### 3. Abrufen von App-Informationen über einen Loop\n",
+    "\n",
+    "Den Google Play Scraper verwenden, um Informationen über die Apps abzurufen:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from google_play_scraper import app\n",
+    "\n",
+    "# Funktion zum Extrahieren der App-ID aus der URL\n",
+    "def extract_app_id(url):\n",
+    "    return url.split('id=')[-1]\n",
+    "\n",
+    "# Liste zum Speichern der App-Informationen\n",
+    "app_info_list = []\n",
+    "\n",
+    "# Loop über die URLs in der CSV-Datei\n",
+    "for url in df['url']:\n",
+    "    app_id = extract_app_id(url)\n",
+    "    app_info = app(app_id, lang='en', country='us')\n",
+    "    app_info_list.append(app_info)\n",
+    "\n",
+    "# Erstellen eines DataFrames mit den App-Informationen\n",
+    "app_info_df = pd.DataFrame(app_info_list)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### 4. Visualisierung der abgerufenen Daten\n",
+    "\n",
+    "Die abgerufenen Daten visualisieren, z. B. die Bewertungen der Apps:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import matplotlib.pyplot as plt\n",
+    "\n",
+    "# Histogramm der App-Bewertungen\n",
+    "plt.figure(figsize=(10, 6))\n",
+    "plt.hist(app_info_df['score'], bins=20, color='skyblue', edgecolor='black')\n",
+    "plt.title('Verteilung der App-Bewertungen')\n",
+    "plt.xlabel('Bewertung')\n",
+    "plt.ylabel('Anzahl der Apps')\n",
+    "plt.show()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Fazit\n",
+    "\n",
+    "Diese Schritte ermöglichen die Installation des Google Play Scrapers, das Einlesen einer CSV-Datei mit App-URLs, das Abrufen von App-Informationen und die Visualisierung der Daten."
+   ]
+  }
+ ],
+ "metadata": {
+  "language_info": {
+   "name": "python"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}

src/03_low_code/app_market_scraping/app_market_scraping.qmd DELETED Viewed

@@ -1,94 +0,0 @@
----
-title: "App-Market-Scraping"
-description: "Extraktion und Analyse von App-Marktdaten, einschließlich benutzerdefinierter Suchparameter und Datenexport."
-image: _2f0cb788-71a6-4817-ab94-d38c346e4f6f.jpeg
-format:
-  html:
-    toc: true
-    code-tools: true
-jupyter: python3
----
-## Lernziele
-- Installation des Google Play Scrapers
-- Einlesen einer CSV-Datei mit App-URLs
-- Abrufen von App-Informationen über einen Loop
-- Visualisierung der abgerufenen Daten
-## App Market Scraping
-Um Apps zu sammeln, besuchen Sie die [Google Play Search](../../02_basics/app_market/google-play-search.qmd) Anwendung. Diese Anwendung ermöglicht es Ihnen, nach Apps im Google Play Store zu suchen und die URLs der gefundenen Apps zu exportieren. Speichern Sie die exportierten URLs in einer CSV-Datei, die als Grundlage für die Auswertung dient.
-### 1. Installation des Google Play Scrapers
-In einem Colab Notebook, installiere die Google-Play-Scraper Bibliothek mit dem folgenden Befehl:
-```python
-!pip install google-play-scraper
-```
-### 2. Einlesen einer CSV-Datei mit App-URLs
-Eine CSV-Datei (`app_urls.csv`) erstellen, die eine Spalte url enthält, welche die URLs der Google Play Store Apps auflistet. Beispiel:
-```python
-url
-https://play.google.com/store/apps/details?id=com.example.app1
-https://play.google.com/store/apps/details?id=com.example.app2
-```
-Die CSV-Datei in ein Pandas DataFrame einlesen:
-```python
-import pandas as pd
-# CSV-Datei einlesen
-df = pd.read_csv('app_urls.csv')
-```
-### 3. Abrufen von App-Informationen über einen Loop
-Den Google Play Scraper verwenden, um Informationen über die Apps abzurufen:
-```python
-from google_play_scraper import app
-# Funktion zum Extrahieren der App-ID aus der URL
-def extract_app_id(url):
-    return url.split('id=')[-1]
-# Liste zum Speichern der App-Informationen
-app_info_list = []
-# Loop über die URLs in der CSV-Datei
-for url in df['url']:
-    app_id = extract_app_id(url)
-    app_info = app(app_id, lang='en', country='us')
-    app_info_list.append(app_info)
-# Erstellen eines DataFrames mit den App-Informationen
-app_info_df = pd.DataFrame(app_info_list)
-```
-### 4. Visualisierung der abgerufenen Daten
-Die abgerufenen Daten visualisieren, z. B. die Bewertungen der Apps:
-```python
-import matplotlib.pyplot as plt
-# Histogramm der App-Bewertungen
-plt.figure(figsize=(10, 6))
-plt.hist(app_info_df['score'], bins=20, color='skyblue', edgecolor='black')
-plt.title('Verteilung der App-Bewertungen')
-plt.xlabel('Bewertung')
-plt.ylabel('Anzahl der Apps')
-plt.show()
-```
-## Fazit
-Diese Schritte ermöglichen die Installation des Google Play Scrapers, das Einlesen einer CSV-Datei mit App-URLs, das Abrufen von App-Informationen und die Visualisierung der Daten.
-{{< downloadthis ../../assets/App_Market_Scraping.ipynb dname="App_Market_Scraping" label="Download Notebook Beispiel" icon="journal-code" type="success" >}}

src/03_low_code/catalogue/bookstoscrape.ipynb ADDED Viewed

	@@ -0,0 +1,187 @@

+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "---\n",
+    "title: \"Bücherkatalog scrapen\"\n",
+    "description: \"Eine Anleitung zum Scraping von Büchern von der Website Books to Scrape, einschließlich Python-Beispielen und Datenexport.\"\n",
+    "image: _be1bcdc2-f540-4a95-a27c-775e8f2c1c07.jpeg\n",
+    "format: \n",
+    "  html:\n",
+    "    toc: true\n",
+    "    code-tools: true\n",
+    "jupyter: python3\n",
+    "---"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "[![](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/#fileId=https://huggingface.co/spaces/datenwerkzeuge/CDL-Webscraping-Workshop-2025/blob/main/src/03_low_code/catalogue/bookstoscrape.ipynb)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Einleitung\n",
+    "\n",
+    "In diesem Tutorial lernen wir, wie man die Website [Books to Scrape](https://books.toscrape.com/) mit Python und `BeautifulSoup` scrapt. Diese Seite dient oft als Beispiel für Web-Scraping, da sie eine einfache Struktur hat und keine komplexen Schutzmaßnahmen gegen Scraping implementiert."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Voraussetzungen\n",
+    "\n",
+    "Stellen Sie sicher, dass Sie die folgenden Python-Bibliotheken installiert haben:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "! pip install requests beautifulsoup4 pandas"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Scraping der Buchdaten\n",
+    "\n",
+    "## Schritt 1: HTML-Inhalt abrufen\n",
+    "\n",
+    "Zuerst verwenden wir die `requests`-Bibliothek, um den HTML-Inhalt der Seite abzurufen."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import requests\n",
+    "\n",
+    "# URL der Website\n",
+    "url = \"https://books.toscrape.com/\"\n",
+    "\n",
+    "# HTML-Inhalt abrufen\n",
+    "response = requests.get(url)\n",
+    "\n",
+    "# Überprüfen, ob die Anfrage erfolgreich war\n",
+    "if response.status_code == 200:\n",
+    "    print(\"HTML-Inhalt erfolgreich abgerufen.\")\n",
+    "else:\n",
+    "    print(f\"Fehler beim Abrufen der Seite: {response.status_code}\")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Schritt 2: HTML mit BeautifulSoup parsen\n",
+    "\n",
+    "Jetzt parsen wir den abgerufenen HTML-Inhalt mit `BeautifulSoup`."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from bs4 import BeautifulSoup\n",
+    "\n",
+    "# HTML-Inhalt parsen\n",
+    "soup = BeautifulSoup(response.text, 'html.parser')\n",
+    "\n",
+    "# Überprüfen des Titels der Seite\n",
+    "print(soup.title.string)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Schritt 3: Daten extrahieren\n",
+    "\n",
+    "Wir extrahieren nun die Titel und Preise der Bücher."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Listen zur Speicherung der Daten\n",
+    "book_titles = []\n",
+    "book_prices = []\n",
+    "\n",
+    "# Alle Buchcontainer finden\n",
+    "books = soup.find_all('article', class_='product_pod')\n",
+    "\n",
+    "# Daten extrahieren\n",
+    "for book in books:\n",
+    "    title = book.h3.a['title']  # Titel des Buches\n",
+    "    price = book.find('p', class_='price_color').text  # Preis des Buches\n",
+    "    book_titles.append(title)\n",
+    "    book_prices.append(price)\n",
+    "\n",
+    "# Daten anzeigen\n",
+    "for title, price in zip(book_titles, book_prices):\n",
+    "    print(f\"{title}: {price}\")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Schritt 4: Daten in einem DataFrame speichern\n",
+    "\n",
+    "Um die extrahierten Daten zu speichern, verwenden wir `pandas`, um sie in einem DataFrame zu organisieren."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import pandas as pd\n",
+    "\n",
+    "# DataFrame erstellen\n",
+    "books_df = pd.DataFrame({\n",
+    "    'Title': book_titles,\n",
+    "    'Price': book_prices\n",
+    "})\n",
+    "\n",
+    "# DataFrame anzeigen\n",
+    "print(books_df.head())"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Fazit\n",
+    "\n",
+    "In diesem Tutorial haben wir gelernt, wie man die Website [Books to Scrape](https://books.toscrape.com/) mit Python und `BeautifulSoup` scrapt. Wir haben die Titel und Preise der Bücher extrahiert und in einem DataFrame gespeichert. Dieses Beispiel kann als Grundlage für komplexere Scraping-Projekte dienen."
+   ]
+  }
+ ],
+ "metadata": {
+  "language_info": {
+   "name": "python"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}

src/03_low_code/catalogue/bookstoscrape.qmd DELETED Viewed

@@ -1,103 +0,0 @@
----
-title: "Bücherkatalog scrapen"
-description: "Eine Anleitung zum Scraping von Büchern von der Website Books to Scrape, einschließlich Python-Beispielen und Datenexport."
-image: _be1bcdc2-f540-4a95-a27c-775e8f2c1c07.jpeg
-format:
-  html:
-    toc: true
-    code-tools: true
-jupyter: python3
----
-# Einleitung
-In diesem Tutorial lernen wir, wie man die Website [Books to Scrape](https://books.toscrape.com/) mit Python und `BeautifulSoup` scrapt. Diese Seite dient oft als Beispiel für Web-Scraping, da sie eine einfache Struktur hat und keine komplexen Schutzmaßnahmen gegen Scraping implementiert.
-## Voraussetzungen
-Stellen Sie sicher, dass Sie die folgenden Python-Bibliotheken installiert haben:
-```bash
-pip install requests beautifulsoup4 pandas
-```
-# Scraping der Buchdaten
-## Schritt 1: HTML-Inhalt abrufen
-Zuerst verwenden wir die `requests`-Bibliothek, um den HTML-Inhalt der Seite abzurufen.
-```{python}
-import requests
-# URL der Website
-url = "https://books.toscrape.com/"
-# HTML-Inhalt abrufen
-response = requests.get(url)
-# Überprüfen, ob die Anfrage erfolgreich war
-if response.status_code == 200:
-    print("HTML-Inhalt erfolgreich abgerufen.")
-else:
-    print(f"Fehler beim Abrufen der Seite: {response.status_code}")
-```
-## Schritt 2: HTML mit BeautifulSoup parsen
-Jetzt parsen wir den abgerufenen HTML-Inhalt mit `BeautifulSoup`.
-```{python}
-from bs4 import BeautifulSoup
-# HTML-Inhalt parsen
-soup = BeautifulSoup(response.text, 'html.parser')
-# Überprüfen des Titels der Seite
-print(soup.title.string)
-```
-## Schritt 3: Daten extrahieren
-Wir extrahieren nun die Titel und Preise der Bücher.
-```{python}
-# Listen zur Speicherung der Daten
-book_titles = []
-book_prices = []
-# Alle Buchcontainer finden
-books = soup.find_all('article', class_='product_pod')
-# Daten extrahieren
-for book in books:
-    title = book.h3.a['title']  # Titel des Buches
-    price = book.find('p', class_='price_color').text  # Preis des Buches
-    book_titles.append(title)
-    book_prices.append(price)
-# Daten anzeigen
-for title, price in zip(book_titles, book_prices):
-    print(f"{title}: {price}")
-```
-## Schritt 4: Daten in einem DataFrame speichern
-Um die extrahierten Daten zu speichern, verwenden wir `pandas`, um sie in einem DataFrame zu organisieren.
-```{python}
-import pandas as pd
-# DataFrame erstellen
-books_df = pd.DataFrame({
-    'Title': book_titles,
-    'Price': book_prices
-})
-# DataFrame anzeigen
-print(books_df.head())
-```
-# Fazit
-In diesem Tutorial haben wir gelernt, wie man die Website [Books to Scrape](https://books.toscrape.com/) mit Python und `BeautifulSoup` scrapt. Wir haben die Titel und Preise der Bücher extrahiert und in einem DataFrame gespeichert. Dieses Beispiel kann als Grundlage für komplexere Scraping-Projekte dienen.

src/_quarto.yml CHANGED Viewed

@@ -75,11 +75,11 @@ website:
           - section: "Kataloge erfassen"
             href: 03_low_code/catalogue.qmd
             contents:
-              - href: 03_low_code/catalogue/bookstoscrape.qmd
                 text: "Bücherliste scrapen📚"
               - href: 03_low_code/catalogue/quotes_scraper.ipynb
                 text: "Zitate scrapen💬"
-          - href: 03_low_code/app_market_scraping/app_market_scraping.qmd
             text: "App Markt analysieren📱"
           - section: "Video Transkripte"
             href: 03_low_code/video_transcripts.qmd

           - section: "Kataloge erfassen"
             href: 03_low_code/catalogue.qmd
             contents:
+              - href: 03_low_code/catalogue/bookstoscrape.ipynb
                 text: "Bücherliste scrapen📚"
               - href: 03_low_code/catalogue/quotes_scraper.ipynb
                 text: "Zitate scrapen💬"
+          - href: 03_low_code/app_market_scraping/app_market_scraping.ipynb
             text: "App Markt analysieren📱"
           - section: "Video Transkripte"
             href: 03_low_code/video_transcripts.qmd

src/assets/App_Market_Scraping.ipynb DELETED Viewed

The diff for this file is too large to render. See raw diff

src/low_code.qmd CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 listing:
   - id: low_code
-    contents: ["03_low_code/catalogue.qmd","03_low_code/app_market_scraping/app_market_scraping.qmd","03_low_code/video_transcripts.qmd"]
     type: grid
 ---

 ---
 listing:
   - id: low_code
+    contents: ["03_low_code/catalogue.qmd","03_low_code/app_market_scraping/app_market_scraping.ipynb","03_low_code/video_transcripts.qmd"]
     type: grid
 ---