Spaces:

datenwerkzeuge
/

CDL-Webscraping-Workshop-2025

Sleeping

App Files Files Community

bsenst commited on Jan 20

Commit

7700944

1 Parent(s): 287c4f6

update learning goals, reformat

Browse files

Files changed (8) hide show

src/03_low_code/catalogue.qmd +5 -2
src/03_low_code/video_transcripts.qmd +2 -0
src/03_low_code/video_transcripts/get_videos_for_youtube_channels.ipynb +1 -0
src/04_use_case/forum/buergergeld_forum.ipynb +3 -1
src/04_use_case/jobs/Jobboerse_API.ipynb +3 -1
src/04_use_case/laws/Gesetze_im_Internet_Aktualitätendienst.ipynb +6 -2
src/04_use_case_bonus/podcasts/aggregate_podcast_episodes_to_markdown.ipynb +3 -1
src/index.qmd +2 -0

src/03_low_code/catalogue.qmd CHANGED Viewed

@@ -7,15 +7,18 @@ listing:
     type: grid
 ---
 ## Lernziele
 **Extraktion mit Python und BeautifulSoup**: Praktische Übung im Web-Scraping, um das gezielte extrahieren aus Datenstrukturen zu verstehen.
 ::: {#catalogue}
 :::
 ## Testscrapingseiten
 * [bsenst.github.io/toscrape](https://bsenst.github.io/toscrape/)
-* [toscrape.com](https://toscrape.com/)

     type: grid
 ---
+::: {.callout-tip}
 ## Lernziele
 **Extraktion mit Python und BeautifulSoup**: Praktische Übung im Web-Scraping, um das gezielte extrahieren aus Datenstrukturen zu verstehen.
+:::
 ::: {#catalogue}
 :::
+::: {.callout-note}
 ## Testscrapingseiten
 * [bsenst.github.io/toscrape](https://bsenst.github.io/toscrape/)
+* [toscrape.com](https://toscrape.com/)
+:::

src/03_low_code/video_transcripts.qmd CHANGED Viewed

@@ -7,9 +7,11 @@ listing:
     type: grid
 ---
 ## Lernziele
 **Extraktion von YouTube-Transkripten und deren Speicherung als PDF-Dateien**: Lernen, wie man Transkripte von Bildungs- und Informationsvideos extrahiert, um diese Inhalte leichter zugänglich und weiterverwendbar für Bildungsarbeit, Advocacy und Sensibilisierungsmaßnahmen zu machen.
 ::: {#video_transcripts}
 :::

     type: grid
 ---
+::: {.callout-tip}
 ## Lernziele
 **Extraktion von YouTube-Transkripten und deren Speicherung als PDF-Dateien**: Lernen, wie man Transkripte von Bildungs- und Informationsvideos extrahiert, um diese Inhalte leichter zugänglich und weiterverwendbar für Bildungsarbeit, Advocacy und Sensibilisierungsmaßnahmen zu machen.
+:::
 ::: {#video_transcripts}
 :::

src/03_low_code/video_transcripts/get_videos_for_youtube_channels.ipynb CHANGED Viewed

@@ -131,6 +131,7 @@
       "outputs": [],
       "source": [
         "# prompt: for each channel id retrieve the list of video ids using the get_video_ids function and save them to a list \"video_id\"\n",
         "\n",
         "video_id = [get_video_ids(channel_id) for channel_id in channel_ids.values()]"
       ]

       "outputs": [],
       "source": [
         "# prompt: for each channel id retrieve the list of video ids using the get_video_ids function and save them to a list \"video_id\"\n",
+        "# dieser vorgang kann einige zeit in anspruch nehmen\n",
         "\n",
         "video_id = [get_video_ids(channel_id) for channel_id in channel_ids.values()]"
       ]

src/04_use_case/forum/buergergeld_forum.ipynb CHANGED Viewed

@@ -22,13 +22,15 @@
       "cell_type": "markdown",
       "metadata": {},
       "source": [
         "## Lernziele\n",
         "\n",
         "**Web Scraping von Foren**\n",
         "\n",
         "* Herunterladen und Speichern von HTML-Seiten eines Forums.\n",
         "* Extraktion und Analyse von Forenbeiträgen und Metadaten.\n",
-        "* Verarbeitung und Bereinigung der extrahierten Daten mit Pandas."
       ]
     },
     {

       "cell_type": "markdown",
       "metadata": {},
       "source": [
+        "::: {.callout-tip}\n",
         "## Lernziele\n",
         "\n",
         "**Web Scraping von Foren**\n",
         "\n",
         "* Herunterladen und Speichern von HTML-Seiten eines Forums.\n",
         "* Extraktion und Analyse von Forenbeiträgen und Metadaten.\n",
+        "* Verarbeitung und Bereinigung der extrahierten Daten mit Pandas.\n",
+        ":::"
       ]
     },
     {

src/04_use_case/jobs/Jobboerse_API.ipynb CHANGED Viewed

@@ -22,13 +22,15 @@
       "cell_type": "markdown",
       "metadata": {},
       "source": [
         "## Lernziele\n",
         "\n",
         "**Nutzung der Jobbörse API**\n",
         "\n",
         "* Abrufen von Jobangeboten über die Jobbörse API.\n",
         "* Verarbeitung und Analyse der abgerufenen Daten mit Pandas.\n",
-        "* Visualisierung der Daten und Erstellung von * Häufigkeitsverteilungen."
       ]
     },
     {

       "cell_type": "markdown",
       "metadata": {},
       "source": [
+        "::: {.callout-tip}\n",
         "## Lernziele\n",
         "\n",
         "**Nutzung der Jobbörse API**\n",
         "\n",
         "* Abrufen von Jobangeboten über die Jobbörse API.\n",
         "* Verarbeitung und Analyse der abgerufenen Daten mit Pandas.\n",
+        "* Visualisierung der Daten und Erstellung von * Häufigkeitsverteilungen.\n",
+        ":::"
       ]
     },
     {

src/04_use_case/laws/Gesetze_im_Internet_Aktualitätendienst.ipynb CHANGED Viewed

@@ -22,13 +22,15 @@
       "cell_type": "markdown",
       "metadata": {},
       "source": [
         "## Lernziele\n",
         "\n",
         "**RSS-Feed-Analyse**\n",
         "\n",
         "* Abrufen und Parsen von RSS-Feeds mit feedparser.\n",
         "* Umwandlung der Feed-Daten in ein Pandas DataFrame.\n",
-        "* Analyse und Visualisierung der Feed-Daten."
       ]
     },
     {
@@ -356,9 +358,11 @@
       "cell_type": "markdown",
       "metadata": {},
       "source": [
         "## Weitere RSS Feeds als Quellen\n",
         "\n",
-        "* [bundestag.de/rss](https://www.bundestag.de/rss)\n"
       ]
     }
   ],

       "cell_type": "markdown",
       "metadata": {},
       "source": [
+        "::: {.callout-tip}\n",
         "## Lernziele\n",
         "\n",
         "**RSS-Feed-Analyse**\n",
         "\n",
         "* Abrufen und Parsen von RSS-Feeds mit feedparser.\n",
         "* Umwandlung der Feed-Daten in ein Pandas DataFrame.\n",
+        "* Analyse und Visualisierung der Feed-Daten.\n",
+        ":::"
       ]
     },
     {
       "cell_type": "markdown",
       "metadata": {},
       "source": [
+        "::: {.callout-note}\n",
         "## Weitere RSS Feeds als Quellen\n",
         "\n",
+        "* [bundestag.de/rss](https://www.bundestag.de/rss)\n",
+        ":::"
       ]
     }
   ],

src/04_use_case_bonus/podcasts/aggregate_podcast_episodes_to_markdown.ipynb CHANGED Viewed

@@ -15,9 +15,11 @@
       "cell_type": "markdown",
       "metadata": {},
       "source": [
         "## Lernziele\n",
         "\n",
-        "Du wirst lernen, wie du mit Python und der requests-Bibliothek Webseiten herunterlädst und mit BeautifulSoup HTML-Inhalte analysierst. Außerdem wirst du lernen, wie du Fehler in deinem Code behandelst und Dateien effizient liest und schreibst. Zusätzlich wirst du Daten bereinigen und verarbeiten, DataFrames mit Pandas erstellen und bearbeiten sowie Daten ins Markdown-Format exportieren."
       ]
     },
     {

       "cell_type": "markdown",
       "metadata": {},
       "source": [
+        "::: {.callout-tip}\n",
         "## Lernziele\n",
         "\n",
+        "Du wirst lernen, wie du mit Python und der requests-Bibliothek Webseiten herunterlädst und mit BeautifulSoup HTML-Inhalte analysierst. Außerdem wirst du lernen, wie du Fehler in deinem Code behandelst und Dateien effizient liest und schreibst. Zusätzlich wirst du Daten bereinigen und verarbeiten, DataFrames mit Pandas erstellen und bearbeiten sowie Daten ins Markdown-Format exportieren.\n",
+        ":::"
       ]
     },
     {

src/index.qmd CHANGED Viewed

@@ -1,6 +1,7 @@
 Herzlich willkommen zum Webscraping Workshop! Egal, ob Erste-Schritte oder Fortgeschritten, dieser Workshop soll wertvolle Einblicke und praktische Erfahrungen für jeden bieten.
 ## Reflektion 💭
 * Hast du ein Google Nutzerkonto?
@@ -8,6 +9,7 @@ Herzlich willkommen zum Webscraping Workshop! Egal, ob Erste-Schritte oder Fortg
 * Hast du schon einmal Daten aus dem Internet extrahiert?
 * Hast du schonmal Daten über eine API bezogen?
 * Nutzt du Große Sprachmodelle?
 ## Navigation auf der Workshop Webseite 🧭

 Herzlich willkommen zum Webscraping Workshop! Egal, ob Erste-Schritte oder Fortgeschritten, dieser Workshop soll wertvolle Einblicke und praktische Erfahrungen für jeden bieten.
+::: {.callout-note}
 ## Reflektion 💭
 * Hast du ein Google Nutzerkonto?
 * Hast du schon einmal Daten aus dem Internet extrahiert?
 * Hast du schonmal Daten über eine API bezogen?
 * Nutzt du Große Sprachmodelle?
+:::
 ## Navigation auf der Workshop Webseite 🧭