bsenst commited on
Commit
144d636
·
1 Parent(s): 13e013d

clear output in ipynb, add podcast bonus tutorial

Browse files
src/03_low_code/catalogue/quotes_scraper.ipynb CHANGED
@@ -31,30 +31,7 @@
31
  "cell_type": "code",
32
  "execution_count": null,
33
  "metadata": {},
34
- "outputs": [
35
- {
36
- "name": "stdout",
37
- "output_type": "stream",
38
- "text": [
39
- "Requirement already satisfied: requests in /home/codespace/.local/lib/python3.12/site-packages (2.32.3)\n",
40
- "Requirement already satisfied: beautifulsoup4 in /home/codespace/.local/lib/python3.12/site-packages (4.12.3)\n",
41
- "Requirement already satisfied: pandas in /home/codespace/.local/lib/python3.12/site-packages (2.2.3)\n",
42
- "Requirement already satisfied: charset-normalizer<4,>=2 in /home/codespace/.local/lib/python3.12/site-packages (from requests) (3.3.2)\n",
43
- "Requirement already satisfied: idna<4,>=2.5 in /home/codespace/.local/lib/python3.12/site-packages (from requests) (3.10)\n",
44
- "Requirement already satisfied: urllib3<3,>=1.21.1 in /home/codespace/.local/lib/python3.12/site-packages (from requests) (2.2.3)\n",
45
- "Requirement already satisfied: certifi>=2017.4.17 in /home/codespace/.local/lib/python3.12/site-packages (from requests) (2024.8.30)\n",
46
- "Requirement already satisfied: soupsieve>1.2 in /home/codespace/.local/lib/python3.12/site-packages (from beautifulsoup4) (2.6)\n",
47
- "Requirement already satisfied: numpy>=1.26.0 in /usr/local/python/3.12.1/lib/python3.12/site-packages (from pandas) (1.26.4)\n",
48
- "Requirement already satisfied: python-dateutil>=2.8.2 in /home/codespace/.local/lib/python3.12/site-packages (from pandas) (2.9.0.post0)\n",
49
- "Requirement already satisfied: pytz>=2020.1 in /home/codespace/.local/lib/python3.12/site-packages (from pandas) (2024.2)\n",
50
- "Requirement already satisfied: tzdata>=2022.7 in /home/codespace/.local/lib/python3.12/site-packages (from pandas) (2024.2)\n",
51
- "Requirement already satisfied: six>=1.5 in /home/codespace/.local/lib/python3.12/site-packages (from python-dateutil>=2.8.2->pandas) (1.16.0)\n",
52
- "\n",
53
- "\u001b[1m[\u001b[0m\u001b[34;49mnotice\u001b[0m\u001b[1;39;49m]\u001b[0m\u001b[39;49m A new release of pip is available: \u001b[0m\u001b[31;49m24.2\u001b[0m\u001b[39;49m -> \u001b[0m\u001b[32;49m24.3.1\u001b[0m\n",
54
- "\u001b[1m[\u001b[0m\u001b[34;49mnotice\u001b[0m\u001b[1;39;49m]\u001b[0m\u001b[39;49m To update, run: \u001b[0m\u001b[32;49mpython3 -m pip install --upgrade pip\u001b[0m\n"
55
- ]
56
- }
57
- ],
58
  "source": [
59
  "# Installieren der benötigten Bibliotheken\n",
60
  "# ! pip install requests beautifulsoup4 pandas"
@@ -71,17 +48,9 @@
71
  },
72
  {
73
  "cell_type": "code",
74
- "execution_count": 2,
75
  "metadata": {},
76
- "outputs": [
77
- {
78
- "name": "stdout",
79
- "output_type": "stream",
80
- "text": [
81
- "HTML-Inhalt erfolgreich abgerufen.\n"
82
- ]
83
- }
84
- ],
85
  "source": [
86
  "import requests\n",
87
  "\n",
@@ -109,17 +78,9 @@
109
  },
110
  {
111
  "cell_type": "code",
112
- "execution_count": 3,
113
  "metadata": {},
114
- "outputs": [
115
- {
116
- "name": "stdout",
117
- "output_type": "stream",
118
- "text": [
119
- "Quotes to Scrape\n"
120
- ]
121
- }
122
- ],
123
  "source": [
124
  "from bs4 import BeautifulSoup\n",
125
  "\n",
@@ -141,21 +102,9 @@
141
  },
142
  {
143
  "cell_type": "code",
144
- "execution_count": 4,
145
  "metadata": {},
146
- "outputs": [
147
- {
148
- "name": "stdout",
149
- "output_type": "stream",
150
- "text": [
151
- "\"“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”\" - Albert Einstein\n",
152
- "\"“It is our choices, Harry, that show what we truly are, far more than our abilities.”\" - J.K. Rowling\n",
153
- "\"“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”\" - Albert Einstein\n",
154
- "\"“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”\" - Jane Austen\n",
155
- "\"“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”\" - Marilyn Monroe\n"
156
- ]
157
- }
158
- ],
159
  "source": [
160
  "# Listen zur Speicherung der Daten\n",
161
  "quotes = []\n",
@@ -187,78 +136,9 @@
187
  },
188
  {
189
  "cell_type": "code",
190
- "execution_count": 5,
191
  "metadata": {},
192
- "outputs": [
193
- {
194
- "data": {
195
- "text/html": [
196
- "<div>\n",
197
- "<style scoped>\n",
198
- " .dataframe tbody tr th:only-of-type {\n",
199
- " vertical-align: middle;\n",
200
- " }\n",
201
- "\n",
202
- " .dataframe tbody tr th {\n",
203
- " vertical-align: top;\n",
204
- " }\n",
205
- "\n",
206
- " .dataframe thead th {\n",
207
- " text-align: right;\n",
208
- " }\n",
209
- "</style>\n",
210
- "<table border=\"1\" class=\"dataframe\">\n",
211
- " <thead>\n",
212
- " <tr style=\"text-align: right;\">\n",
213
- " <th></th>\n",
214
- " <th>Quote</th>\n",
215
- " <th>Author</th>\n",
216
- " </tr>\n",
217
- " </thead>\n",
218
- " <tbody>\n",
219
- " <tr>\n",
220
- " <th>0</th>\n",
221
- " <td>“The world as we have created it is a process ...</td>\n",
222
- " <td>Albert Einstein</td>\n",
223
- " </tr>\n",
224
- " <tr>\n",
225
- " <th>1</th>\n",
226
- " <td>“It is our choices, Harry, that show what we t...</td>\n",
227
- " <td>J.K. Rowling</td>\n",
228
- " </tr>\n",
229
- " <tr>\n",
230
- " <th>2</th>\n",
231
- " <td>“There are only two ways to live your life. On...</td>\n",
232
- " <td>Albert Einstein</td>\n",
233
- " </tr>\n",
234
- " <tr>\n",
235
- " <th>3</th>\n",
236
- " <td>“The person, be it gentleman or lady, who has ...</td>\n",
237
- " <td>Jane Austen</td>\n",
238
- " </tr>\n",
239
- " <tr>\n",
240
- " <th>4</th>\n",
241
- " <td>“Imperfection is beauty, madness is genius and...</td>\n",
242
- " <td>Marilyn Monroe</td>\n",
243
- " </tr>\n",
244
- " </tbody>\n",
245
- "</table>\n",
246
- "</div>"
247
- ],
248
- "text/plain": [
249
- " Quote Author\n",
250
- "0 “The world as we have created it is a process ... Albert Einstein\n",
251
- "1 “It is our choices, Harry, that show what we t... J.K. Rowling\n",
252
- "2 “There are only two ways to live your life. On... Albert Einstein\n",
253
- "3 “The person, be it gentleman or lady, who has ... Jane Austen\n",
254
- "4 “Imperfection is beauty, madness is genius and... Marilyn Monroe"
255
- ]
256
- },
257
- "execution_count": 5,
258
- "metadata": {},
259
- "output_type": "execute_result"
260
- }
261
- ],
262
  "source": [
263
  "import pandas as pd\n",
264
  "\n",
 
31
  "cell_type": "code",
32
  "execution_count": null,
33
  "metadata": {},
34
+ "outputs": [],
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
35
  "source": [
36
  "# Installieren der benötigten Bibliotheken\n",
37
  "# ! pip install requests beautifulsoup4 pandas"
 
48
  },
49
  {
50
  "cell_type": "code",
51
+ "execution_count": null,
52
  "metadata": {},
53
+ "outputs": [],
 
 
 
 
 
 
 
 
54
  "source": [
55
  "import requests\n",
56
  "\n",
 
78
  },
79
  {
80
  "cell_type": "code",
81
+ "execution_count": null,
82
  "metadata": {},
83
+ "outputs": [],
 
 
 
 
 
 
 
 
84
  "source": [
85
  "from bs4 import BeautifulSoup\n",
86
  "\n",
 
102
  },
103
  {
104
  "cell_type": "code",
105
+ "execution_count": null,
106
  "metadata": {},
107
+ "outputs": [],
 
 
 
 
 
 
 
 
 
 
 
 
108
  "source": [
109
  "# Listen zur Speicherung der Daten\n",
110
  "quotes = []\n",
 
136
  },
137
  {
138
  "cell_type": "code",
139
+ "execution_count": null,
140
  "metadata": {},
141
+ "outputs": [],
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
142
  "source": [
143
  "import pandas as pd\n",
144
  "\n",
src/03_low_code/video_transcripts/get_videos_for_youtube_channels.ipynb CHANGED
The diff for this file is too large to render. See raw diff
 
src/03_low_code/video_transcripts/youtube-transcript-extraction.ipynb CHANGED
@@ -28,7 +28,7 @@
28
  },
29
  {
30
  "cell_type": "code",
31
- "execution_count": 18,
32
  "metadata": {
33
  "execution": {
34
  "iopub.execute_input": "2024-12-08T19:21:41.981395Z",
@@ -39,17 +39,7 @@
39
  },
40
  "trusted": true
41
  },
42
- "outputs": [
43
- {
44
- "name": "stdout",
45
- "output_type": "stream",
46
- "text": [
47
- "\n",
48
- "\u001b[1m[\u001b[0m\u001b[34;49mnotice\u001b[0m\u001b[1;39;49m]\u001b[0m\u001b[39;49m A new release of pip is available: \u001b[0m\u001b[31;49m24.2\u001b[0m\u001b[39;49m -> \u001b[0m\u001b[32;49m24.3.1\u001b[0m\n",
49
- "\u001b[1m[\u001b[0m\u001b[34;49mnotice\u001b[0m\u001b[1;39;49m]\u001b[0m\u001b[39;49m To update, run: \u001b[0m\u001b[32;49mpython3 -m pip install --upgrade pip\u001b[0m\n"
50
- ]
51
- }
52
- ],
53
  "source": [
54
  "! pip install pytube youtube-transcript-api reportlab -q"
55
  ]
@@ -241,7 +231,7 @@
241
  },
242
  {
243
  "cell_type": "code",
244
- "execution_count": 22,
245
  "metadata": {
246
  "execution": {
247
  "iopub.execute_input": "2024-12-08T19:32:38.175946Z",
@@ -252,24 +242,7 @@
252
  },
253
  "trusted": true
254
  },
255
- "outputs": [
256
- {
257
- "name": "stdout",
258
- "output_type": "stream",
259
- "text": [
260
- "Verarbeite Video: Jq7iHVGevRQ\n",
261
- "Transkript für 'Jq7iHVGevRQ' gespeichert als Jq7iHVGevRQ.pdf.\n",
262
- "Verarbeite Video: q9eWAtZxrW8\n",
263
- "Transkript für 'q9eWAtZxrW8' gespeichert als q9eWAtZxrW8.pdf.\n",
264
- "Verarbeite Video: NmjX3mkVTM4\n",
265
- "Transkript für 'NmjX3mkVTM4' gespeichert als NmjX3mkVTM4.pdf.\n",
266
- "Verarbeite Video: gELlAym0eJM\n",
267
- "Transkript für 'gELlAym0eJM' gespeichert als gELlAym0eJM.pdf.\n",
268
- "Verarbeite Video: qT2pbTlsNyk\n",
269
- "Transkript für 'qT2pbTlsNyk' gespeichert als qT2pbTlsNyk.pdf.\n"
270
- ]
271
- }
272
- ],
273
  "source": [
274
  "# Eingabe der URLs\n",
275
  "urls = \"https://www.youtube.com/playlist?list=PLfRDp3S7rLduqUTa6oXe_Zlv7bEeD06t6\"\n",
@@ -318,17 +291,9 @@
318
  },
319
  {
320
  "cell_type": "code",
321
- "execution_count": 23,
322
  "metadata": {},
323
- "outputs": [
324
- {
325
- "name": "stdout",
326
- "output_type": "stream",
327
- "text": [
328
- "ZIP-Archiv 'transcripts.zip' wurde erstellt.\n"
329
- ]
330
- }
331
- ],
332
  "source": [
333
  "\n",
334
  "# Erstellen eines ZIP-Archivs\n",
 
28
  },
29
  {
30
  "cell_type": "code",
31
+ "execution_count": null,
32
  "metadata": {
33
  "execution": {
34
  "iopub.execute_input": "2024-12-08T19:21:41.981395Z",
 
39
  },
40
  "trusted": true
41
  },
42
+ "outputs": [],
 
 
 
 
 
 
 
 
 
 
43
  "source": [
44
  "! pip install pytube youtube-transcript-api reportlab -q"
45
  ]
 
231
  },
232
  {
233
  "cell_type": "code",
234
+ "execution_count": null,
235
  "metadata": {
236
  "execution": {
237
  "iopub.execute_input": "2024-12-08T19:32:38.175946Z",
 
242
  },
243
  "trusted": true
244
  },
245
+ "outputs": [],
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
246
  "source": [
247
  "# Eingabe der URLs\n",
248
  "urls = \"https://www.youtube.com/playlist?list=PLfRDp3S7rLduqUTa6oXe_Zlv7bEeD06t6\"\n",
 
291
  },
292
  {
293
  "cell_type": "code",
294
+ "execution_count": null,
295
  "metadata": {},
296
+ "outputs": [],
 
 
 
 
 
 
 
 
297
  "source": [
298
  "\n",
299
  "# Erstellen eines ZIP-Archivs\n",
src/04_use_case/forum/buergergeld_forum.ipynb CHANGED
The diff for this file is too large to render. See raw diff
 
src/04_use_case/jobs/Jobboerse_API.ipynb CHANGED
The diff for this file is too large to render. See raw diff
 
src/04_use_case/laws/Gesetze_im_Internet_Aktualitätendienst.ipynb CHANGED
@@ -41,7 +41,7 @@
41
  },
42
  {
43
  "cell_type": "code",
44
- "execution_count": 36,
45
  "metadata": {
46
  "colab": {
47
  "base_uri": "https://localhost:8080/"
@@ -49,16 +49,7 @@
49
  "id": "d-v9mlTtOzcL",
50
  "outputId": "1c7b64fe-35df-40c2-f715-86fbc0b3d2fe"
51
  },
52
- "outputs": [
53
- {
54
- "name": "stdout",
55
- "output_type": "stream",
56
- "text": [
57
- "Requirement already satisfied: feedparser in /usr/local/lib/python3.10/dist-packages (6.0.11)\n",
58
- "Requirement already satisfied: sgmllib3k in /usr/local/lib/python3.10/dist-packages (from feedparser) (1.0.0)\n"
59
- ]
60
- }
61
- ],
62
  "source": [
63
  "# prompt: installiere die bibliothek feedparser\n",
64
  "\n",
@@ -123,7 +114,7 @@
123
  },
124
  {
125
  "cell_type": "code",
126
- "execution_count": 39,
127
  "metadata": {
128
  "colab": {
129
  "base_uri": "https://localhost:8080/",
@@ -132,150 +123,7 @@
132
  "id": "Y0HqRhRhS0ys",
133
  "outputId": "da1c6f82-ff69-47d0-df35-9005bf1daf3e"
134
  },
135
- "outputs": [
136
- {
137
- "data": {
138
- "text/html": [
139
- "<div>\n",
140
- "<style scoped>\n",
141
- " .dataframe tbody tr th:only-of-type {\n",
142
- " vertical-align: middle;\n",
143
- " }\n",
144
- "\n",
145
- " .dataframe tbody tr th {\n",
146
- " vertical-align: top;\n",
147
- " }\n",
148
- "\n",
149
- " .dataframe thead th {\n",
150
- " text-align: right;\n",
151
- " }\n",
152
- "</style>\n",
153
- "<table border=\"1\" class=\"dataframe\">\n",
154
- " <thead>\n",
155
- " <tr style=\"text-align: right;\">\n",
156
- " <th></th>\n",
157
- " <th>0</th>\n",
158
- " </tr>\n",
159
- " </thead>\n",
160
- " <tbody>\n",
161
- " <tr>\n",
162
- " <th>title</th>\n",
163
- " <td>Fünfzehnte Verordnung zur Änderung der Sozialv...</td>\n",
164
- " </tr>\n",
165
- " <tr>\n",
166
- " <th>title_detail</th>\n",
167
- " <td>{'type': 'text/plain', 'language': 'de', 'base...</td>\n",
168
- " </tr>\n",
169
- " <tr>\n",
170
- " <th>links</th>\n",
171
- " <td>[{'rel': 'alternate', 'type': 'text/html', 'hr...</td>\n",
172
- " </tr>\n",
173
- " <tr>\n",
174
- " <th>link</th>\n",
175
- " <td>https://www.recht.bund.de/eli/bund/bgbl-1/2024...</td>\n",
176
- " </tr>\n",
177
- " <tr>\n",
178
- " <th>published</th>\n",
179
- " <td>2024-12-06</td>\n",
180
- " </tr>\n",
181
- " <tr>\n",
182
- " <th>published_parsed</th>\n",
183
- " <td>(2024, 12, 6, 0, 0, 0, 4, 341, 0)</td>\n",
184
- " </tr>\n",
185
- " <tr>\n",
186
- " <th>summary</th>\n",
187
- " <td></td>\n",
188
- " </tr>\n",
189
- " <tr>\n",
190
- " <th>summary_detail</th>\n",
191
- " <td>{'type': 'text/html', 'language': 'de', 'base'...</td>\n",
192
- " </tr>\n",
193
- " <tr>\n",
194
- " <th>meta_shorttitle</th>\n",
195
- " <td></td>\n",
196
- " </tr>\n",
197
- " <tr>\n",
198
- " <th>meta_amtliche-abkuerzung</th>\n",
199
- " <td></td>\n",
200
- " </tr>\n",
201
- " <tr>\n",
202
- " <th>meta_typ</th>\n",
203
- " <td>Verordnung</td>\n",
204
- " </tr>\n",
205
- " <tr>\n",
206
- " <th>meta_initiant</th>\n",
207
- " <td>Bundesministerium für Arbeit und Soziales</td>\n",
208
- " </tr>\n",
209
- " <tr>\n",
210
- " <th>meta_ausfertigung</th>\n",
211
- " <td>2024-12-06</td>\n",
212
- " </tr>\n",
213
- " <tr>\n",
214
- " <th>meta_fundstelle</th>\n",
215
- " <td>BGBl. 2024 I Nr. 394 vom 06.12.2024</td>\n",
216
- " </tr>\n",
217
- " <tr>\n",
218
- " <th>meta_nummer</th>\n",
219
- " <td>394</td>\n",
220
- " </tr>\n",
221
- " <tr>\n",
222
- " <th>meta_jahr</th>\n",
223
- " <td>2024</td>\n",
224
- " </tr>\n",
225
- " <tr>\n",
226
- " <th>meta_bgbl</th>\n",
227
- " <td>I</td>\n",
228
- " </tr>\n",
229
- " <tr>\n",
230
- " <th>meta_hinweis</th>\n",
231
- " <td></td>\n",
232
- " </tr>\n",
233
- " <tr>\n",
234
- " <th>meta_fna</th>\n",
235
- " <td>860-4-1-16</td>\n",
236
- " </tr>\n",
237
- " <tr>\n",
238
- " <th>meta_sachgebiet</th>\n",
239
- " <td>Sozialgesetzbuch</td>\n",
240
- " </tr>\n",
241
- " <tr>\n",
242
- " <th>meta_gesta</th>\n",
243
- " <td></td>\n",
244
- " </tr>\n",
245
- " </tbody>\n",
246
- "</table>\n",
247
- "</div><br><label><b>dtype:</b> object</label>"
248
- ],
249
- "text/plain": [
250
- "title Fünfzehnte Verordnung zur Änderung der Sozialv...\n",
251
- "title_detail {'type': 'text/plain', 'language': 'de', 'base...\n",
252
- "links [{'rel': 'alternate', 'type': 'text/html', 'hr...\n",
253
- "link https://www.recht.bund.de/eli/bund/bgbl-1/2024...\n",
254
- "published 2024-12-06\n",
255
- "published_parsed (2024, 12, 6, 0, 0, 0, 4, 341, 0)\n",
256
- "summary \n",
257
- "summary_detail {'type': 'text/html', 'language': 'de', 'base'...\n",
258
- "meta_shorttitle \n",
259
- "meta_amtliche-abkuerzung \n",
260
- "meta_typ Verordnung\n",
261
- "meta_initiant Bundesministerium für Arbeit und Soziales\n",
262
- "meta_ausfertigung 2024-12-06\n",
263
- "meta_fundstelle BGBl. 2024 I Nr. 394 vom 06.12.2024\n",
264
- "meta_nummer 394\n",
265
- "meta_jahr 2024\n",
266
- "meta_bgbl I\n",
267
- "meta_hinweis \n",
268
- "meta_fna 860-4-1-16\n",
269
- "meta_sachgebiet Sozialgesetzbuch\n",
270
- "meta_gesta \n",
271
- "Name: 0, dtype: object"
272
- ]
273
- },
274
- "execution_count": 39,
275
- "metadata": {},
276
- "output_type": "execute_result"
277
- }
278
- ],
279
  "source": [
280
  "# prompt: bitte stelle den ersten eintrag des dataframe dar\n",
281
  "\n",
@@ -292,7 +140,7 @@
292
  },
293
  {
294
  "cell_type": "code",
295
- "execution_count": 40,
296
  "metadata": {
297
  "colab": {
298
  "base_uri": "https://localhost:8080/"
@@ -300,18 +148,7 @@
300
  "id": "3jmt9tybTMLb",
301
  "outputId": "b1d40007-7567-488f-c3de-d3dccfe4b7e4"
302
  },
303
- "outputs": [
304
- {
305
- "data": {
306
- "text/plain": [
307
- "(500, 21)"
308
- ]
309
- },
310
- "execution_count": 40,
311
- "metadata": {},
312
- "output_type": "execute_result"
313
- }
314
- ],
315
  "source": [
316
  "# prompt: wie groß ist das dataframe?\n",
317
  "\n",
@@ -328,7 +165,7 @@
328
  },
329
  {
330
  "cell_type": "code",
331
- "execution_count": 41,
332
  "metadata": {
333
  "colab": {
334
  "base_uri": "https://localhost:8080/",
@@ -337,190 +174,7 @@
337
  "id": "atYQfhdMTTCa",
338
  "outputId": "c0f9be5e-3a2c-4074-c2e5-39692e1dee10"
339
  },
340
- "outputs": [
341
- {
342
- "data": {
343
- "text/html": [
344
- "<div>\n",
345
- "<style scoped>\n",
346
- " .dataframe tbody tr th:only-of-type {\n",
347
- " vertical-align: middle;\n",
348
- " }\n",
349
- "\n",
350
- " .dataframe tbody tr th {\n",
351
- " vertical-align: top;\n",
352
- " }\n",
353
- "\n",
354
- " .dataframe thead th {\n",
355
- " text-align: right;\n",
356
- " }\n",
357
- "</style>\n",
358
- "<table border=\"1\" class=\"dataframe\">\n",
359
- " <thead>\n",
360
- " <tr style=\"text-align: right;\">\n",
361
- " <th></th>\n",
362
- " <th>count</th>\n",
363
- " </tr>\n",
364
- " <tr>\n",
365
- " <th>meta_initiant</th>\n",
366
- " <th></th>\n",
367
- " </tr>\n",
368
- " </thead>\n",
369
- " <tbody>\n",
370
- " <tr>\n",
371
- " <th>Auswärtiges Amt</th>\n",
372
- " <td>240</td>\n",
373
- " </tr>\n",
374
- " <tr>\n",
375
- " <th>Bundesministerium für Digitales und Verkehr</th>\n",
376
- " <td>28</td>\n",
377
- " </tr>\n",
378
- " <tr>\n",
379
- " <th>Bundesministerium der Justiz</th>\n",
380
- " <td>26</td>\n",
381
- " </tr>\n",
382
- " <tr>\n",
383
- " <th>Bundesministerium der Finanzen</th>\n",
384
- " <td>24</td>\n",
385
- " </tr>\n",
386
- " <tr>\n",
387
- " <th>Bundesministerium des Innern und für Heimat</th>\n",
388
- " <td>23</td>\n",
389
- " </tr>\n",
390
- " <tr>\n",
391
- " <th>Bundesministerium für wirtschaftliche Zusammenarbeit und Entwicklung</th>\n",
392
- " <td>22</td>\n",
393
- " </tr>\n",
394
- " <tr>\n",
395
- " <th>Bundesministerium für Arbeit und Soziales</th>\n",
396
- " <td>19</td>\n",
397
- " </tr>\n",
398
- " <tr>\n",
399
- " <th>Bundesministerium für Ernährung und Landwirtschaft</th>\n",
400
- " <td>18</td>\n",
401
- " </tr>\n",
402
- " <tr>\n",
403
- " <th>Bundesaufsichtsamt für Flugsicherung</th>\n",
404
- " <td>18</td>\n",
405
- " </tr>\n",
406
- " <tr>\n",
407
- " <th>Bundesministerium für Wirtschaft und Klimaschutz</th>\n",
408
- " <td>16</td>\n",
409
- " </tr>\n",
410
- " <tr>\n",
411
- " <th>Bundesministerium für Gesundheit</th>\n",
412
- " <td>13</td>\n",
413
- " </tr>\n",
414
- " <tr>\n",
415
- " <th>Bundesministerium für Bildung und Forschung</th>\n",
416
- " <td>11</td>\n",
417
- " </tr>\n",
418
- " <tr>\n",
419
- " <th>Bundesministerium der Verteidigung</th>\n",
420
- " <td>10</td>\n",
421
- " </tr>\n",
422
- " <tr>\n",
423
- " <th>Bundesministerium für Umwelt, Naturschutz, nukleare Sicherheit und Verbraucherschutz</th>\n",
424
- " <td>7</td>\n",
425
- " </tr>\n",
426
- " <tr>\n",
427
- " <th>Generaldirektion Wasserstraßen und Schifffahrt</th>\n",
428
- " <td>7</td>\n",
429
- " </tr>\n",
430
- " <tr>\n",
431
- " <th>DRV Bund</th>\n",
432
- " <td>2</td>\n",
433
- " </tr>\n",
434
- " <tr>\n",
435
- " <th>Bundesamt für Logistik und Mobilität</th>\n",
436
- " <td>2</td>\n",
437
- " </tr>\n",
438
- " <tr>\n",
439
- " <th>Bundesministerium für Wohnen, Stadtentwicklung und Bauwesen</th>\n",
440
- " <td>2</td>\n",
441
- " </tr>\n",
442
- " <tr>\n",
443
- " <th>Sonstige</th>\n",
444
- " <td>2</td>\n",
445
- " </tr>\n",
446
- " <tr>\n",
447
- " <th>Bundesministerium für Familie, Senioren, Frauen und Jugend</th>\n",
448
- " <td>2</td>\n",
449
- " </tr>\n",
450
- " <tr>\n",
451
- " <th>Unabhängiger Kontrollrat</th>\n",
452
- " <td>1</td>\n",
453
- " </tr>\n",
454
- " <tr>\n",
455
- " <th>Deutscher Bundestag</th>\n",
456
- " <td>1</td>\n",
457
- " </tr>\n",
458
- " <tr>\n",
459
- " <th>Luftfahrt-Bundesamt</th>\n",
460
- " <td>1</td>\n",
461
- " </tr>\n",
462
- " <tr>\n",
463
- " <th>Kassenärztliche Bundesvereinigung</th>\n",
464
- " <td>1</td>\n",
465
- " </tr>\n",
466
- " <tr>\n",
467
- " <th>Bundesanstalt für Finanzdienstleistungsaufsicht</th>\n",
468
- " <td>1</td>\n",
469
- " </tr>\n",
470
- " <tr>\n",
471
- " <th>Sozialversicherung für Landwirtschaft, Forsten und Gartenbau</th>\n",
472
- " <td>1</td>\n",
473
- " </tr>\n",
474
- " <tr>\n",
475
- " <th>Bundesamt für Verbraucherschutz und Lebensmittelsicherheit</th>\n",
476
- " <td>1</td>\n",
477
- " </tr>\n",
478
- " <tr>\n",
479
- " <th>Bundesagentur für Arbeit</th>\n",
480
- " <td>1</td>\n",
481
- " </tr>\n",
482
- " </tbody>\n",
483
- "</table>\n",
484
- "</div><br><label><b>dtype:</b> int64</label>"
485
- ],
486
- "text/plain": [
487
- "meta_initiant\n",
488
- "Auswärtiges Amt 240\n",
489
- "Bundesministerium für Digitales und Verkehr 28\n",
490
- "Bundesministerium der Justiz 26\n",
491
- "Bundesministerium der Finanzen 24\n",
492
- "Bundesministerium des Innern und für Heimat 23\n",
493
- "Bundesministerium für wirtschaftliche Zusammenarbeit und Entwicklung 22\n",
494
- "Bundesministerium für Arbeit und Soziales 19\n",
495
- "Bundesministerium für Ernährung und Landwirtschaft 18\n",
496
- "Bundesaufsichtsamt für Flugsicherung 18\n",
497
- "Bundesministerium für Wirtschaft und Klimaschutz 16\n",
498
- "Bundesministerium für Gesundheit 13\n",
499
- "Bundesministerium für Bildung und Forschung 11\n",
500
- "Bundesministerium der Verteidigung 10\n",
501
- "Bundesministerium für Umwelt, Naturschutz, nukleare Sicherheit und Verbraucherschutz 7\n",
502
- "Generaldirektion Wasserstraßen und Schifffahrt 7\n",
503
- "DRV Bund 2\n",
504
- "Bundesamt für Logistik und Mobilität 2\n",
505
- "Bundesministerium für Wohnen, Stadtentwicklung und Bauwesen 2\n",
506
- "Sonstige 2\n",
507
- "Bundesministerium für Familie, Senioren, Frauen und Jugend 2\n",
508
- "Unabhängiger Kontrollrat 1\n",
509
- "Deutscher Bundestag 1\n",
510
- "Luftfahrt-Bundesamt 1\n",
511
- "Kassenärztliche Bundesvereinigung 1\n",
512
- "Bundesanstalt für Finanzdienstleistungsaufsicht 1\n",
513
- "Sozialversicherung für Landwirtschaft, Forsten und Gartenbau 1\n",
514
- "Bundesamt für Verbraucherschutz und Lebensmittelsicherheit 1\n",
515
- "Bundesagentur für Arbeit 1\n",
516
- "Name: count, dtype: int64"
517
- ]
518
- },
519
- "execution_count": 41,
520
- "metadata": {},
521
- "output_type": "execute_result"
522
- }
523
- ],
524
  "source": [
525
  "# prompt: stelle die häufigkeitenverteilung der spalte meta_initiant dar\n",
526
  "\n",
@@ -537,7 +191,7 @@
537
  },
538
  {
539
  "cell_type": "code",
540
- "execution_count": 42,
541
  "metadata": {
542
  "colab": {
543
  "base_uri": "https://localhost:8080/",
@@ -546,18 +200,7 @@
546
  "id": "dmvjRjFPTf9V",
547
  "outputId": "6b91dc32-5d00-42cb-8b79-4a36bbf42b45"
548
  },
549
- "outputs": [
550
- {
551
- "data": {
552
- "image/png": "",
553
- "text/plain": [
554
- "<Figure size 1200x600 with 1 Axes>"
555
- ]
556
- },
557
- "metadata": {},
558
- "output_type": "display_data"
559
- }
560
- ],
561
  "source": [
562
  "# prompt: visualisiere die spalte published\n",
563
  "\n",
@@ -588,7 +231,7 @@
588
  },
589
  {
590
  "cell_type": "code",
591
- "execution_count": 43,
592
  "metadata": {
593
  "colab": {
594
  "base_uri": "https://localhost:8080/",
@@ -597,18 +240,7 @@
597
  "id": "huFY2Qs9T0rt",
598
  "outputId": "a1f59b96-083a-4b71-ee55-30b36deb3072"
599
  },
600
- "outputs": [
601
- {
602
- "data": {
603
- "image/png": "",
604
- "text/plain": [
605
- "<Figure size 800x800 with 1 Axes>"
606
- ]
607
- },
608
- "metadata": {},
609
- "output_type": "display_data"
610
- }
611
- ],
612
  "source": [
613
  "# prompt: stelle die spalte meta_typ dar als kreisdiagramm\n",
614
  "\n",
@@ -640,7 +272,7 @@
640
  },
641
  {
642
  "cell_type": "code",
643
- "execution_count": 49,
644
  "metadata": {
645
  "colab": {
646
  "base_uri": "https://localhost:8080/"
@@ -648,33 +280,7 @@
648
  "id": "R-XQ7G5SVi1M",
649
  "outputId": "94d62053-e158-4cb9-98c0-265b094b1472"
650
  },
651
- "outputs": [
652
- {
653
- "name": "stdout",
654
- "output_type": "stream",
655
- "text": [
656
- "Fünfzehnte Verordnung zur Änderung der Sozialversicherungsentgeltverordnung\n",
657
- "Verordnung zur Änderung der Gefahrstoffverordnung und anderer Arbeitsschutzverordnungen\n",
658
- "Fünfte Verordnung zur Änderung der Verwaltungskostenfeststellungsverordnung\n",
659
- "Verordnung zur Neufestsetzung der Neurenten-Faktoren und zur Übertragung der Verordnungsermächtigung auf das Bundesamt für Soziale Sicherung\n",
660
- "Vierte Verordnung zur Änderung der Verordnung zur Durchführung des Bundesdisziplinargesetzes bei den bundesunmittelbaren Körperschaften mit Dienstherrnfähigkeit im Geschäftsbereich des Bundesministeriums für Arbeit und Soziales\n",
661
- "Bekanntmachung der Beitragssätze in der allgemeinen Rentenversicherung und der knappschaftlichen Rentenversicherung für das Jahr 2025\n",
662
- "Verordnung über maßgebende Rechengrößen der Sozialversicherung für 2025\n",
663
- "Sechste Verordnung über eine Lohnuntergrenze in der Arbeitnehmerüberlassung\n",
664
- "Bekanntmachung über die Höhe der Leistungssätze nach § 3a Absatz 4 des Asylbewerberleistungsgesetzes für die Zeit ab 1. Januar 2025\n",
665
- "Bekanntmachung zur Umsetzung der Richtlinie (EU) 2022/2041 des Europäischen Parlaments und des Rates vom 19. Oktober 2022 über angemessene Mindestlöhne in der Europäischen Union\n",
666
- "Verordnung zur Bestimmung der für die Fortschreibung der Regelbedarfsstufen nach § 28a und für die Fortschreibung des Teilbetrags nach § 34 Absatz 3a Satz 1 des Zwölften Buches Sozialgesetzbuch maßgeblichen Prozentsätze sowie zur Ergänzung der Anlage zu §§ 28 und 34 des Zwölften Buches Sozialgesetzbuch für das Jahr 2025\n",
667
- "Verordnung zur Änderung der Entgeltbescheinigungsverordnung und der Beitragsverfahrensverordnung\n",
668
- "Dritte Verordnung über zwingende Arbeitsbedingungen für Sicherheitskräfte an Verkehrsflughäfen\n",
669
- "Künstlersozialabgabe-Verordnung 2025\n",
670
- "Zwölfte Verordnung zur Änderung der Bürgergeld-Verordnung\n",
671
- "Zweites Gesetz zur Änderung des Betriebsverfassungsgesetzes\n",
672
- "Verordnung zur Festlegung und Anpassung der Bundesbeteiligung an den Leistungen für Unterkunft und Heizung für das Jahr 2024\n",
673
- "Verordnung zur Anpassung der Entschädigungszahlungen nach dem Vierzehnten Buch Sozialgesetzbuch\n",
674
- "Verordnung zur Bestimmung des Rentenwerts in der gesetzlichen Rentenversicherung und zur Bestimmung weiterer Werte zum 1. Juli 2024\n"
675
- ]
676
- }
677
- ],
678
  "source": [
679
  "# prompt:\n",
680
  "\n",
@@ -698,7 +304,7 @@
698
  },
699
  {
700
  "cell_type": "code",
701
- "execution_count": 51,
702
  "metadata": {
703
  "colab": {
704
  "base_uri": "https://localhost:8080/"
@@ -706,27 +312,7 @@
706
  "id": "J7IQcy_JV48Z",
707
  "outputId": "cfb452be-7a34-4db7-ab6a-95f17f43292b"
708
  },
709
- "outputs": [
710
- {
711
- "name": "stdout",
712
- "output_type": "stream",
713
- "text": [
714
- "Dritte Verordnung zur Änderung der Coronavirus-Impfverordnung und der Coronavirus-Testverordnung\n",
715
- "Vierundzwanzigste Verordnung zur Änderung von Anlagen des Betäubungsmittelgesetzes\n",
716
- "Verordnung zur Änderung der Approbationsordnung für Zahnärzte und Zahnärztinnen und weiterer Verordnungen im Bereich der Heilberufe\n",
717
- "Fünfte Verordnung zur Änderung der Pflegepersonaluntergrenzen-Verordnung\n",
718
- "Medizinforschungsgesetz\n",
719
- "Zweite Verordnung zur Änderung der Implantateregister-Betriebsverordnung\n",
720
- "Zweite Verordnung zur Änderung der Approbationsordnung für Psychotherapeutinnen und Psychotherapeuten\n",
721
- "Gesundheits-IT-Interoperabilitäts-Governance-Verordnung\n",
722
- "Verordnung zum Anspruch auf Maßnahmen der spezifischen Prophylaxe gegen Respiratorische Synzytial Viren\n",
723
- "Verordnung zum Modellvorhaben zur umfassenden Diagnostik und Therapiefindung mittels Genomsequenzierung bei seltenen und bei onkologischen Erkrankungen\n",
724
- "Fünfte Verordnung zur Änderung der Anlage des Neue-psychoaktive-Stoffe-Gesetzes\n",
725
- "Gesetz zur Änderung des Konsumcannabisgesetzes und des Medizinal-Cannabisgesetzes\n",
726
- "Verordnung über die Grundsätze der Personalbedarfsbemessung in der stationären Krankenpflege\n"
727
- ]
728
- }
729
- ],
730
  "source": [
731
  "# prompt: welche titel haben die einträge im dataframe df für die spalte meta_initiant Bundesministerium für Gesundheit zeige jeden eintrag in einer separaten zeile\n",
732
  "\n",
 
41
  },
42
  {
43
  "cell_type": "code",
44
+ "execution_count": null,
45
  "metadata": {
46
  "colab": {
47
  "base_uri": "https://localhost:8080/"
 
49
  "id": "d-v9mlTtOzcL",
50
  "outputId": "1c7b64fe-35df-40c2-f715-86fbc0b3d2fe"
51
  },
52
+ "outputs": [],
 
 
 
 
 
 
 
 
 
53
  "source": [
54
  "# prompt: installiere die bibliothek feedparser\n",
55
  "\n",
 
114
  },
115
  {
116
  "cell_type": "code",
117
+ "execution_count": null,
118
  "metadata": {
119
  "colab": {
120
  "base_uri": "https://localhost:8080/",
 
123
  "id": "Y0HqRhRhS0ys",
124
  "outputId": "da1c6f82-ff69-47d0-df35-9005bf1daf3e"
125
  },
126
+ "outputs": [],
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
127
  "source": [
128
  "# prompt: bitte stelle den ersten eintrag des dataframe dar\n",
129
  "\n",
 
140
  },
141
  {
142
  "cell_type": "code",
143
+ "execution_count": null,
144
  "metadata": {
145
  "colab": {
146
  "base_uri": "https://localhost:8080/"
 
148
  "id": "3jmt9tybTMLb",
149
  "outputId": "b1d40007-7567-488f-c3de-d3dccfe4b7e4"
150
  },
151
+ "outputs": [],
 
 
 
 
 
 
 
 
 
 
 
152
  "source": [
153
  "# prompt: wie groß ist das dataframe?\n",
154
  "\n",
 
165
  },
166
  {
167
  "cell_type": "code",
168
+ "execution_count": null,
169
  "metadata": {
170
  "colab": {
171
  "base_uri": "https://localhost:8080/",
 
174
  "id": "atYQfhdMTTCa",
175
  "outputId": "c0f9be5e-3a2c-4074-c2e5-39692e1dee10"
176
  },
177
+ "outputs": [],
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
178
  "source": [
179
  "# prompt: stelle die häufigkeitenverteilung der spalte meta_initiant dar\n",
180
  "\n",
 
191
  },
192
  {
193
  "cell_type": "code",
194
+ "execution_count": null,
195
  "metadata": {
196
  "colab": {
197
  "base_uri": "https://localhost:8080/",
 
200
  "id": "dmvjRjFPTf9V",
201
  "outputId": "6b91dc32-5d00-42cb-8b79-4a36bbf42b45"
202
  },
203
+ "outputs": [],
 
 
 
 
 
 
 
 
 
 
 
204
  "source": [
205
  "# prompt: visualisiere die spalte published\n",
206
  "\n",
 
231
  },
232
  {
233
  "cell_type": "code",
234
+ "execution_count": null,
235
  "metadata": {
236
  "colab": {
237
  "base_uri": "https://localhost:8080/",
 
240
  "id": "huFY2Qs9T0rt",
241
  "outputId": "a1f59b96-083a-4b71-ee55-30b36deb3072"
242
  },
243
+ "outputs": [],
 
 
 
 
 
 
 
 
 
 
 
244
  "source": [
245
  "# prompt: stelle die spalte meta_typ dar als kreisdiagramm\n",
246
  "\n",
 
272
  },
273
  {
274
  "cell_type": "code",
275
+ "execution_count": null,
276
  "metadata": {
277
  "colab": {
278
  "base_uri": "https://localhost:8080/"
 
280
  "id": "R-XQ7G5SVi1M",
281
  "outputId": "94d62053-e158-4cb9-98c0-265b094b1472"
282
  },
283
+ "outputs": [],
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
284
  "source": [
285
  "# prompt:\n",
286
  "\n",
 
304
  },
305
  {
306
  "cell_type": "code",
307
+ "execution_count": null,
308
  "metadata": {
309
  "colab": {
310
  "base_uri": "https://localhost:8080/"
 
312
  "id": "J7IQcy_JV48Z",
313
  "outputId": "cfb452be-7a34-4db7-ab6a-95f17f43292b"
314
  },
315
+ "outputs": [],
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
316
  "source": [
317
  "# prompt: welche titel haben die einträge im dataframe df für die spalte meta_initiant Bundesministerium für Gesundheit zeige jeden eintrag in einer separaten zeile\n",
318
  "\n",
src/04_use_case_bonus/podcasts/_b34a92c5-b284-42a5-8c8c-aefe2c00eb0b.jpeg ADDED
src/04_use_case_bonus/podcasts/aggregate_podcast_episodes_to_markdown.ipynb ADDED
@@ -0,0 +1,602 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cells": [
3
+ {
4
+ "cell_type": "markdown",
5
+ "metadata": {},
6
+ "source": [
7
+ "---\n",
8
+ "title: \"Podcast-Episoden aggregieren\"\n",
9
+ "description: \"Podcast-Episoden von Webseiten herunterladen, die Daten analysieren und bereinigen und schließlich in Markdown exportieren.\"\n",
10
+ "image: _b34a92c5-b284-42a5-8c8c-aefe2c00eb0b.jpeg\n",
11
+ "---"
12
+ ]
13
+ },
14
+ {
15
+ "cell_type": "markdown",
16
+ "metadata": {},
17
+ "source": [
18
+ "## Lernziele\n",
19
+ "\n",
20
+ "Du wirst lernen, wie du mit Python und der requests-Bibliothek Webseiten herunterlädst und mit BeautifulSoup HTML-Inhalte analysierst. Außerdem wirst du lernen, wie du Fehler in deinem Code behandelst und Dateien effizient liest und schreibst. Zusätzlich wirst du Daten bereinigen und verarbeiten, DataFrames mit Pandas erstellen und bearbeiten sowie Daten ins Markdown-Format exportieren."
21
+ ]
22
+ },
23
+ {
24
+ "cell_type": "markdown",
25
+ "metadata": {},
26
+ "source": [
27
+ "[![](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/#fileId=https://huggingface.co/spaces/datenwerkzeuge/CDL-Webscraping-Workshop-2025/src/04_use_case/podcasts/aggregate_podcast_episodes_to_markdown.ipynb)"
28
+ ]
29
+ },
30
+ {
31
+ "cell_type": "markdown",
32
+ "metadata": {},
33
+ "source": [
34
+ "## Requesting"
35
+ ]
36
+ },
37
+ {
38
+ "cell_type": "markdown",
39
+ "metadata": {},
40
+ "source": [
41
+ "In dieser Zelle wird ein Python-Skript definiert, das die Webseite \"https://fyyd.de/search?page=0&search=digitalisierung\" herunterlädt und als HTML-Datei speichert. Es verwendet die requests-Bibliothek für den Download und behandelt mögliche Fehler während des Prozesses."
42
+ ]
43
+ },
44
+ {
45
+ "cell_type": "code",
46
+ "execution_count": null,
47
+ "metadata": {
48
+ "colab": {
49
+ "base_uri": "https://localhost:8080/"
50
+ },
51
+ "id": "selanRm9aGQQ",
52
+ "outputId": "3b8dc3b3-59a5-465a-cf82-d38da5fe7f1f"
53
+ },
54
+ "outputs": [],
55
+ "source": [
56
+ "# prompt: bitte erstelle python code der die seite https://fyyd.de/search?page=0&search=digitalisierung herunterlädt und als html speichert\n",
57
+ "\n",
58
+ "import requests\n",
59
+ "from bs4 import BeautifulSoup\n",
60
+ "\n",
61
+ "def download_and_save_html(url, filename=\"downloaded_page.html\"):\n",
62
+ " try:\n",
63
+ " response = requests.get(url)\n",
64
+ " response.raise_for_status() # Raise an exception for bad status codes\n",
65
+ "\n",
66
+ " with open(filename, \"w\", encoding=\"utf-8\") as file:\n",
67
+ " file.write(response.text)\n",
68
+ " print(f\"Page downloaded and saved as {filename}\")\n",
69
+ "\n",
70
+ " except requests.exceptions.RequestException as e:\n",
71
+ " print(f\"An error occurred: {e}\")\n",
72
+ " except Exception as e:\n",
73
+ " print(f\"An unexpected error occurred: {e}\")\n",
74
+ "\n",
75
+ "if __name__ == \"__main__\":\n",
76
+ " url = \"https://fyyd.de/search?page=0&search=digitalisierung\"\n",
77
+ " download_and_save_html(url)"
78
+ ]
79
+ },
80
+ {
81
+ "cell_type": "markdown",
82
+ "metadata": {},
83
+ "source": [
84
+ "## Scraping"
85
+ ]
86
+ },
87
+ {
88
+ "cell_type": "markdown",
89
+ "metadata": {},
90
+ "source": [
91
+ "In dieser Zelle wird ein Python-Skript definiert, das die Datei \"downloaded_page.html\" öffnet und alle Links daraus extrahiert. Es verwendet die `BeautifulSoup`-Bibliothek zur HTML-Analyse und speichert die extrahierten Links in einer Liste."
92
+ ]
93
+ },
94
+ {
95
+ "cell_type": "code",
96
+ "execution_count": 2,
97
+ "metadata": {
98
+ "id": "ickyBTfMamz1"
99
+ },
100
+ "outputs": [],
101
+ "source": [
102
+ "# prompt: schreibe python code der die datei downloaded_page.html öffnet und alle links extrahiert und in einer variablen speichert\n",
103
+ "\n",
104
+ "import requests\n",
105
+ "from bs4 import BeautifulSoup\n",
106
+ "\n",
107
+ "def extract_links(filename=\"downloaded_page.html\"):\n",
108
+ " try:\n",
109
+ " with open(filename, \"r\", encoding=\"utf-8\") as file:\n",
110
+ " html_content = file.read()\n",
111
+ "\n",
112
+ " soup = BeautifulSoup(html_content, \"html.parser\")\n",
113
+ " links = []\n",
114
+ " for link in soup.find_all(\"a\", href=True):\n",
115
+ " links.append(link[\"href\"])\n",
116
+ " return links\n",
117
+ " except FileNotFoundError:\n",
118
+ " print(f\"Error: File '{filename}' not found.\")\n",
119
+ " return None\n",
120
+ " except Exception as e:\n",
121
+ " print(f\"An unexpected error occurred: {e}\")\n",
122
+ " return None\n",
123
+ "\n",
124
+ "if __name__ == \"__main__\":\n",
125
+ " extracted_links = extract_links()\n"
126
+ ]
127
+ },
128
+ {
129
+ "cell_type": "markdown",
130
+ "metadata": {},
131
+ "source": [
132
+ "## Cleaning"
133
+ ]
134
+ },
135
+ {
136
+ "cell_type": "markdown",
137
+ "metadata": {},
138
+ "source": [
139
+ "In dieser Zelle wird eine Liste episode_links erstellt, die alle Links aus der Variable extracted_links speichert, die den String \"/episode/\" enthalten. Es wird überprüft, ob jeder Link ein String ist und das Muster \"/episode/\" enthält, bevor er zur Liste hinzugefügt wird."
140
+ ]
141
+ },
142
+ {
143
+ "cell_type": "code",
144
+ "execution_count": 3,
145
+ "metadata": {
146
+ "id": "os23OZVYYUyH"
147
+ },
148
+ "outputs": [],
149
+ "source": [
150
+ "# prompt: schreibe python code der aus der variablen extracted_links alle string in einer liste ablegt die /episode/ beinhalten\n",
151
+ "\n",
152
+ "episode_links = []\n",
153
+ "if extracted_links:\n",
154
+ " for link in extracted_links:\n",
155
+ " if isinstance(link, str) and \"/episode/\" in link:\n",
156
+ " episode_links.append(link)"
157
+ ]
158
+ },
159
+ {
160
+ "cell_type": "markdown",
161
+ "metadata": {},
162
+ "source": [
163
+ "In dieser Zelle wird eine Liste cleaned_episode_links erstellt, die alle Links aus episode_links in das Format https://fyyd.de/episode/xxxxxxxxx/ umwandelt. Dabei werden Links, die mit /episode/ beginnen, entsprechend ergänzt, und Links mit /transcript werden bereinigt, um das gewünschte Format zu erreichen."
164
+ ]
165
+ },
166
+ {
167
+ "cell_type": "code",
168
+ "execution_count": null,
169
+ "metadata": {
170
+ "colab": {
171
+ "base_uri": "https://localhost:8080/"
172
+ },
173
+ "id": "Enb0NoKxb9x1",
174
+ "outputId": "a88e0efd-35be-43d2-8f98-df52161023b7"
175
+ },
176
+ "outputs": [],
177
+ "source": [
178
+ "# prompt: reinige die strings in episode_links sodass aus '/episode/13289098', '/episode/4591809', '/episode/10661740', 'https://fyyd.de/episode/10661740/transcript#t4514', '/episode/13287710', '/episode/13289210', strings in folgendem format werden 'https://fyyd.de/episode/xxxxxxxxx/'\n",
179
+ "\n",
180
+ "cleaned_episode_links = []\n",
181
+ "for link in episode_links:\n",
182
+ " if link.startswith('/episode/'):\n",
183
+ " cleaned_episode_links.append(f\"https://fyyd.de{link}\")\n",
184
+ " elif \"https://fyyd.de/episode/\" in link:\n",
185
+ " cleaned_episode_links.append(link.split(\"/transcript\")[0] + \"/\") # handles transcript links\n",
186
+ " else:\n",
187
+ " cleaned_episode_links.append(link) # keep links that are already in correct format\n",
188
+ "\n",
189
+ "len(cleaned_episode_links)"
190
+ ]
191
+ },
192
+ {
193
+ "cell_type": "markdown",
194
+ "metadata": {},
195
+ "source": [
196
+ "In dieser Zelle wird die Liste cleaned_episode_links in ein Set umgewandelt, um doppelte Einträge zu entfernen, und dann wieder in eine Liste konvertiert. Anschließend wird die Länge des Sets berechnet, um die Anzahl der eindeutigen Links in cleaned_episode_links zu ermitteln."
197
+ ]
198
+ },
199
+ {
200
+ "cell_type": "code",
201
+ "execution_count": null,
202
+ "metadata": {
203
+ "colab": {
204
+ "base_uri": "https://localhost:8080/"
205
+ },
206
+ "id": "20k_pz_rjDGI",
207
+ "outputId": "86248903-3bd1-42b4-b6a2-3e5bf6734671"
208
+ },
209
+ "outputs": [],
210
+ "source": [
211
+ "cleaned_episode_links = list(set(cleaned_episode_links))\n",
212
+ "\n",
213
+ "len(set(cleaned_episode_links))"
214
+ ]
215
+ },
216
+ {
217
+ "cell_type": "markdown",
218
+ "metadata": {},
219
+ "source": [
220
+ "In dieser Zelle wird ein Python-Skript erstellt, das über alle Links in cleaned_episode_links iteriert und die HTML-Antworten in einem Ordner speichert. Für jeden Link wird eine HTTP-Anfrage gesendet, und die Antwort wird in einer Datei gespeichert, deren Name die Episoden-ID und einen Index enthält. Der Ordner episode_html wird erstellt, falls er noch nicht existiert, und Fehler während des Downloads werden behandelt und ausgegeben."
221
+ ]
222
+ },
223
+ {
224
+ "cell_type": "markdown",
225
+ "metadata": {},
226
+ "source": [
227
+ "## Zweites Requesting"
228
+ ]
229
+ },
230
+ {
231
+ "cell_type": "code",
232
+ "execution_count": null,
233
+ "metadata": {
234
+ "colab": {
235
+ "base_uri": "https://localhost:8080/"
236
+ },
237
+ "id": "VAKuiS8ocXgM",
238
+ "outputId": "22799ae8-1f33-49b8-8746-a3bea4a73708"
239
+ },
240
+ "outputs": [],
241
+ "source": [
242
+ "# prompt: iteriere über alle links in cleaned_episode_links und speichere die html antworten in einem ordner füge die episode id als in den dateiname ein\n",
243
+ "\n",
244
+ "import requests\n",
245
+ "from bs4 import BeautifulSoup\n",
246
+ "import os\n",
247
+ "\n",
248
+ "# ... (your existing code) ...\n",
249
+ "\n",
250
+ "\n",
251
+ "def download_and_save_html(url, filename=\"downloaded_page.html\"):\n",
252
+ " try:\n",
253
+ " response = requests.get(url)\n",
254
+ " response.raise_for_status() # Raise an exception for bad status codes\n",
255
+ "\n",
256
+ " with open(filename, \"w\", encoding=\"utf-8\") as file:\n",
257
+ " file.write(response.text)\n",
258
+ " print(f\"Page downloaded and saved as {filename}\")\n",
259
+ "\n",
260
+ " except requests.exceptions.RequestException as e:\n",
261
+ " print(f\"An error occurred: {e}\")\n",
262
+ " except Exception as e:\n",
263
+ " print(f\"An unexpected error occurred: {e}\")\n",
264
+ "\n",
265
+ "\n",
266
+ "# Create the directory if it doesn't exist\n",
267
+ "if not os.path.exists(\"episode_html\"):\n",
268
+ " os.makedirs(\"episode_html\")\n",
269
+ "\n",
270
+ "for i, link in enumerate(cleaned_episode_links):\n",
271
+ " try:\n",
272
+ " response = requests.get(link)\n",
273
+ " response.raise_for_status()\n",
274
+ "\n",
275
+ " # Extract episode ID (you might need a more robust way to extract this)\n",
276
+ " episode_id = link.split(\"/\")[-2] if link.split(\"/\")[-1] == \"\" else link.split(\"/\")[-1] # handles trailing slashes\n",
277
+ "\n",
278
+ " filename = os.path.join(\"episode_html\", f\"episode_{episode_id}_{i}.html\") # Use episode ID in filename\n",
279
+ " with open(filename, \"w\", encoding=\"utf-8\") as f:\n",
280
+ " f.write(response.text)\n",
281
+ " print(f\"Downloaded {link} to {filename}\")\n",
282
+ " except requests.exceptions.RequestException as e:\n",
283
+ " print(f\"Error downloading {link}: {e}\")\n",
284
+ " except Exception as e:\n",
285
+ " print(f\"An unexpected error occurred while processing {link}: {e}\")"
286
+ ]
287
+ },
288
+ {
289
+ "cell_type": "markdown",
290
+ "metadata": {},
291
+ "source": [
292
+ "## Scraping"
293
+ ]
294
+ },
295
+ {
296
+ "cell_type": "markdown",
297
+ "metadata": {},
298
+ "source": [
299
+ "In dieser Zelle wird ein Python-Skript erstellt, das über alle HTML-Dateien in einem angegebenen Verzeichnis (output_dir) iteriert, die Dateinamen sortiert und bestimmte Informationen aus den HTML-Inhalten extrahiert.\n",
300
+ "\n",
301
+ "Das Skript beginnt mit dem Import der notwendigen Bibliotheken (pandas, os, BeautifulSoup und re). Es definiert eine Funktion process_html_files, die die HTML-Dateien im Verzeichnis episode_html verarbeitet.\n",
302
+ "\n",
303
+ "Die Funktion listet alle HTML-Dateien im Verzeichnis auf und sortiert sie. Für jede Datei wird der HTML-Inhalt gelesen und mit BeautifulSoup geparst.\n",
304
+ "\n",
305
+ "Es extrahiert den Titel der Seite aus dem <title>-Tag und das Datum und die Uhrzeit aus einem <span>-Tag mit einem title-Attribut, das das Wort \"importiert\" enthält. Die Episoden-ID wird aus dem Dateinamen extrahiert.\n",
306
+ "\n",
307
+ "Die extrahierten Daten (Titel, Datum und Uhrzeit, Episoden-ID) werden in einer Liste gespeichert und schließlich in ein Pandas DataFrame konvertiert. Das DataFrame wird zurückgegeben und kann weiter verwendet werden."
308
+ ]
309
+ },
310
+ {
311
+ "cell_type": "code",
312
+ "execution_count": null,
313
+ "metadata": {
314
+ "colab": {
315
+ "base_uri": "https://localhost:8080/",
316
+ "height": 424
317
+ },
318
+ "id": "Bq_GpCeec_3u",
319
+ "outputId": "efff9d49-a576-46e6-b2a0-cbe9f6b35f37"
320
+ },
321
+ "outputs": [],
322
+ "source": [
323
+ "# prompt: iteriere über alle html dateien in output_dir , sortiere die liste der dateinamen und extrahiere <title>fyyd: Studio 9: Welche Chancen bringt die elektronische Patientenakte?</title> und das datum und die uhrzeit aus <span title=\"importiert :17.03.2023 14:25\"> in ein pandas dataframe als title date episode id\n",
324
+ "\n",
325
+ "import pandas as pd\n",
326
+ "import os\n",
327
+ "from bs4 import BeautifulSoup\n",
328
+ "import re\n",
329
+ "\n",
330
+ "def process_html_files(output_dir=\"episode_html\"):\n",
331
+ " \"\"\"\n",
332
+ " Iterates through HTML files, extracts title, date, and time, and creates a Pandas DataFrame.\n",
333
+ " \"\"\"\n",
334
+ "\n",
335
+ " html_files = [f for f in os.listdir(output_dir) if f.endswith(\".html\")]\n",
336
+ " html_files.sort() # Sort filenames\n",
337
+ "\n",
338
+ " data = []\n",
339
+ " for filename in html_files:\n",
340
+ " filepath = os.path.join(output_dir, filename)\n",
341
+ " try:\n",
342
+ " with open(filepath, \"r\", encoding=\"utf-8\") as file:\n",
343
+ " html_content = file.read()\n",
344
+ "\n",
345
+ " soup = BeautifulSoup(html_content, \"html.parser\")\n",
346
+ "\n",
347
+ " # Extract title using regular expressions for robustness\n",
348
+ " title_tag = soup.find(\"title\")\n",
349
+ " if title_tag:\n",
350
+ " title_match = re.search(r\"<title>(.*?)</title>\", str(title_tag))\n",
351
+ " title = title_match.group(1) if title_match else None\n",
352
+ " else:\n",
353
+ " title = None\n",
354
+ "\n",
355
+ " # Extract date and time using find with span tag\n",
356
+ " date_time_span = soup.find(\"span\", attrs={\"title\":re.compile(r\"importiert\")})\n",
357
+ " if date_time_span and date_time_span[\"title\"]:\n",
358
+ " date_time_str = date_time_span[\"title\"].split(\":\", 1)[1] # split string at first \":\"\n",
359
+ " # date_time_str = date_time_span[\"title\"]\n",
360
+ " else:\n",
361
+ " date_time_str = None\n",
362
+ "\n",
363
+ " episode_id = filename.split(\"_\")[1] # extract episode ID from filename\n",
364
+ "\n",
365
+ "\n",
366
+ " data.append([title, date_time_str, episode_id])\n",
367
+ "\n",
368
+ " except FileNotFoundError:\n",
369
+ " print(f\"Error: File '{filename}' not found.\")\n",
370
+ " except Exception as e:\n",
371
+ " print(f\"An unexpected error occurred while processing {filename}: {e}\")\n",
372
+ "\n",
373
+ " df = pd.DataFrame(data, columns=[\"title\", \"date\", \"id\"])\n",
374
+ " return df\n",
375
+ "\n",
376
+ "# Example usage (assuming you have the episode_html directory)\n",
377
+ "df = process_html_files()\n",
378
+ "df"
379
+ ]
380
+ },
381
+ {
382
+ "cell_type": "markdown",
383
+ "metadata": {},
384
+ "source": [
385
+ "## Cleaning"
386
+ ]
387
+ },
388
+ {
389
+ "cell_type": "markdown",
390
+ "metadata": {},
391
+ "source": [
392
+ "In dieser Zelle wird der String \"fyyd: \" am Beginn jeder Zeile in der Spalte title des DataFrames df entfernt. Dies wird durch die Verwendung der str.replace-Methode erreicht, die den regulären Ausdruck ^fyyd: (der für \"fyyd: \" am Anfang eines Strings steht) durch einen leeren String ersetzt. Das Ergebnis wird in der Spalte title des DataFrames df gespeichert."
393
+ ]
394
+ },
395
+ {
396
+ "cell_type": "code",
397
+ "execution_count": null,
398
+ "metadata": {
399
+ "colab": {
400
+ "base_uri": "https://localhost:8080/",
401
+ "height": 424
402
+ },
403
+ "id": "1pWP9JU0hgRR",
404
+ "outputId": "7f8d131a-2c26-4c08-a8ec-eaf881e51315"
405
+ },
406
+ "outputs": [],
407
+ "source": [
408
+ "# prompt: entferne das \"fyyd: \" am beginn jeder reihe in df.title\n",
409
+ "\n",
410
+ "# Remove \"fyyd: \" from the beginning of each row in df.title\n",
411
+ "df['title'] = df['title'].str.replace(r'^fyyd: ', '', regex=True)\n",
412
+ "\n",
413
+ "df"
414
+ ]
415
+ },
416
+ {
417
+ "cell_type": "markdown",
418
+ "metadata": {},
419
+ "source": [
420
+ "## Datumsformatierung"
421
+ ]
422
+ },
423
+ {
424
+ "cell_type": "markdown",
425
+ "metadata": {},
426
+ "source": [
427
+ "In dieser Zelle wird die Spalte date im DataFrame df in Datetime-Objekte umgewandelt, wobei das Format %d.%m.%Y %H:%M verwendet wird. Fehlerhafte Datumsangaben werden dabei ignoriert (errors='coerce'). Anschließend wird der DataFrame nach der Spalte date in absteigender Reihenfolge sortiert, sodass die neuesten Daten zuerst erscheinen. Schließlich wird der aktualisierte DataFrame angezeigt."
428
+ ]
429
+ },
430
+ {
431
+ "cell_type": "code",
432
+ "execution_count": null,
433
+ "metadata": {
434
+ "colab": {
435
+ "base_uri": "https://localhost:8080/",
436
+ "height": 424
437
+ },
438
+ "id": "gzOPIUW3eqWe",
439
+ "outputId": "4884c18a-f38d-492e-db56-6f85b9bcd563"
440
+ },
441
+ "outputs": [],
442
+ "source": [
443
+ "# prompt: Using dataframe df: formatiere die spalte date und sortiere nach date beginnend beim jüngsten datum\n",
444
+ "\n",
445
+ "# Convert the 'date' column to datetime objects\n",
446
+ "df['date'] = pd.to_datetime(df['date'], format='%d.%m.%Y %H:%M', errors='coerce')\n",
447
+ "\n",
448
+ "# Sort the DataFrame by the 'date' column in descending order (most recent first)\n",
449
+ "df = df.sort_values(by='date', ascending=False)\n",
450
+ "\n",
451
+ "# Display the updated DataFrame\n",
452
+ "df"
453
+ ]
454
+ },
455
+ {
456
+ "cell_type": "markdown",
457
+ "metadata": {},
458
+ "source": [
459
+ "## Zusätzliche Features"
460
+ ]
461
+ },
462
+ {
463
+ "cell_type": "markdown",
464
+ "metadata": {},
465
+ "source": [
466
+ "In dieser Zelle wird eine neue Spalte url im DataFrame df erstellt, indem die Basis-URL https://fyyd.de/episode/ mit den Werten der Spalte id verkettet wird. Dadurch wird für jede Episode eine vollständige URL generiert. Anschließend wird der aktualisierte DataFrame angezeigt, um die Änderungen zu überprüfen."
467
+ ]
468
+ },
469
+ {
470
+ "cell_type": "code",
471
+ "execution_count": 10,
472
+ "metadata": {
473
+ "id": "1yIOQdW8kO5w"
474
+ },
475
+ "outputs": [],
476
+ "source": [
477
+ "# prompt: Using dataframe df: formatier die id als url mit folgendem format https://fyyd.de/episode/id\n",
478
+ "\n",
479
+ "# Import necessary libraries (if not already imported)\n",
480
+ "import pandas as pd\n",
481
+ "\n",
482
+ "# Assuming 'df' is your DataFrame\n",
483
+ "\n",
484
+ "# Create the URL column by concatenating the base URL with the 'id' column.\n",
485
+ "df['url'] = 'https://fyyd.de/episode/' + df['id']\n",
486
+ "\n",
487
+ "# Display the updated DataFrame to verify the changes.\n",
488
+ "#print(df.head())"
489
+ ]
490
+ },
491
+ {
492
+ "cell_type": "markdown",
493
+ "metadata": {},
494
+ "source": [
495
+ "In dieser Zelle werden Duplikate aus dem DataFrame df entfernt. Dies geschieht durch die Methode drop_duplicates(), die alle Zeilen entfernt, die in allen Spalten identisch sind. Anschließend wird der aktualisierte DataFrame angezeigt."
496
+ ]
497
+ },
498
+ {
499
+ "cell_type": "code",
500
+ "execution_count": null,
501
+ "metadata": {
502
+ "colab": {
503
+ "base_uri": "https://localhost:8080/",
504
+ "height": 1000
505
+ },
506
+ "id": "AFZbleQElO82",
507
+ "outputId": "e4b481c0-b85d-4993-cb0f-d0514a17d085"
508
+ },
509
+ "outputs": [],
510
+ "source": [
511
+ "# prompt: entferne duplikate von df\n",
512
+ "\n",
513
+ "# Assuming 'df' is your DataFrame\n",
514
+ "\n",
515
+ "# Remove duplicates based on all columns\n",
516
+ "df = df.drop_duplicates()\n",
517
+ "\n",
518
+ "# Display the updated DataFrame\n",
519
+ "df"
520
+ ]
521
+ },
522
+ {
523
+ "cell_type": "markdown",
524
+ "metadata": {},
525
+ "source": [
526
+ "## Export als Markdown Tabelle"
527
+ ]
528
+ },
529
+ {
530
+ "cell_type": "markdown",
531
+ "metadata": {},
532
+ "source": [
533
+ "In dieser Zelle wird der DataFrame df neu indexiert und eine neue Spalte index hinzugefügt, die bei 1 beginnt. Die Spalte date wird so formatiert, dass nur das Datum ohne die Uhrzeit angezeigt wird. Anschließend wird eine Markdown-formatierte Tabelle erstellt, in der die Spalte title als Markdown-Link formatiert ist (title). Die resultierende Tabelle enthält die Spalten index, title und date. Schließlich wird die Markdown-Tabelle angezeigt und kann optional in eine Datei gespeichert werden."
534
+ ]
535
+ },
536
+ {
537
+ "cell_type": "code",
538
+ "execution_count": null,
539
+ "metadata": {
540
+ "colab": {
541
+ "base_uri": "https://localhost:8080/",
542
+ "height": 174
543
+ },
544
+ "id": "99rp49RBkdrW",
545
+ "outputId": "d709155c-3b45-4ecb-a0e6-857beed4f5b5"
546
+ },
547
+ "outputs": [],
548
+ "source": [
549
+ "# prompt: reset the index and show as markdown formatted table mit title als markdown link [title](url) und date ohne uhrzeit, die url muss nicht als gesonderte spalte aufgeführt werden, füge einen index hinzu, die tabelle soll am ende die spalten index titel datum besitzen\n",
550
+ "\n",
551
+ "# Assuming 'df' is your DataFrame from the previous code\n",
552
+ "\n",
553
+ "# Reset the index and create a new 'index' column\n",
554
+ "df = df.reset_index(drop=True)\n",
555
+ "df.index = df.index + 1 # Start index from 1\n",
556
+ "df = df.rename_axis('index')\n",
557
+ "\n",
558
+ "\n",
559
+ "# Format the 'date' column to only show the date without the time\n",
560
+ "df['date'] = df['date'].dt.strftime('%d.%m.%Y')\n",
561
+ "\n",
562
+ "# Create the Markdown-formatted table\n",
563
+ "markdown_table = \"| index | title | date |\\n\"\n",
564
+ "markdown_table += \"|---|---|---|\\n\" # Separator row\n",
565
+ "\n",
566
+ "for index, row in df.iterrows():\n",
567
+ " title_link = f\"[{row['title']}]({row['url']})\"\n",
568
+ " markdown_table += f\"| {index} | {title_link} | {row['date']} |\\n\"\n",
569
+ "\n",
570
+ "# Display the markdown table\n",
571
+ "markdown_table\n",
572
+ "\n",
573
+ "# You can also save the markdown table to a file if you want:\n",
574
+ "# with open(\"output.md\", \"w\") as f:\n",
575
+ "# f.write(markdown_table)"
576
+ ]
577
+ },
578
+ {
579
+ "cell_type": "markdown",
580
+ "metadata": {},
581
+ "source": [
582
+ "## Fazit\n",
583
+ "\n",
584
+ "Dieses Notebook zeigt, wie man Podcast-Episoden von Webseiten herunterlädt, die Daten bereinigt und in ein einheitliches Format bringt, um sie schließlich in einer Markdown-Tabelle darzustellen. Es bietet eine umfassende Anleitung zur Datenextraktion, -verarbeitung und -formatierung mit Python. Der Nutzen dieses Notebooks liegt in der Automatisierung und Vereinfachung des Prozesses, um strukturierte Daten aus unstrukturierten Webinhalten zu gewinnen und übersichtlich darzustellen."
585
+ ]
586
+ }
587
+ ],
588
+ "metadata": {
589
+ "colab": {
590
+ "provenance": []
591
+ },
592
+ "kernelspec": {
593
+ "display_name": "Python 3",
594
+ "name": "python3"
595
+ },
596
+ "language_info": {
597
+ "name": "python"
598
+ }
599
+ },
600
+ "nbformat": 4,
601
+ "nbformat_minor": 0
602
+ }
src/_quarto.yml CHANGED
@@ -101,6 +101,10 @@ website:
101
  text: "Jobbörse💼"
102
  - href: 04_use_case/forum/buergergeld_forum.ipynb
103
  text: "Buergergeld Forum💬"
 
 
 
 
104
 
105
  format:
106
  html:
 
101
  text: "Jobbörse💼"
102
  - href: 04_use_case/forum/buergergeld_forum.ipynb
103
  text: "Buergergeld Forum💬"
104
+ - section: "Anwendungsfall Bonus"
105
+ contents:
106
+ - href: 04_use_case_bonus/podcasts/aggregate_podcast_episodes_to_markdown.ipynb
107
+ text: "Podcasts aggregieren"
108
 
109
  format:
110
  html:
src/index.qmd CHANGED
@@ -3,9 +3,9 @@ Herzlich willkommen zum Webscraping Workshop! Egal, ob Erste-Schritte oder Fortg
3
 
4
  ## Reflektion 💭
5
 
6
- * Hast du Programmierkenntnisse in Python?
7
  * Hast du schon einmal Daten aus dem Internet extrahiert?
8
  * Hast du schonmal Daten über eine API bezogen?
 
9
 
10
  ## Navigation auf der Workshop Webseite 🧭
11
 
@@ -29,6 +29,10 @@ Oben links befindet sich die Suchfunktion. Hier kann man nach spezifischen Theme
29
 
30
  Am unteren Bildschirmrand befinden sich die Vor- und Zurück-Knöpfe. Diese ermöglichen eine einfache Navigation zwischen den verschiedenen Seiten in Reihenfolge.
31
 
 
 
 
 
32
  ---
33
 
34
  Viel Erfolg und willkommen zum Workshop! 🎉
 
3
 
4
  ## Reflektion 💭
5
 
 
6
  * Hast du schon einmal Daten aus dem Internet extrahiert?
7
  * Hast du schonmal Daten über eine API bezogen?
8
+ * Nutzt du Große Sprachmodelle im Alltag?
9
 
10
  ## Navigation auf der Workshop Webseite 🧭
11
 
 
29
 
30
  Am unteren Bildschirmrand befinden sich die Vor- und Zurück-Knöpfe. Diese ermöglichen eine einfache Navigation zwischen den verschiedenen Seiten in Reihenfolge.
31
 
32
+ ## Workshop Ressourcen
33
+
34
+ Die Workshop [Quarto Website](https://quarto.org/docs/websites/) findet ihr unter [datenwerkzeuge-cdl-webscraping-workshop-2025.hf.space](https://datenwerkzeuge-cdl-webscraping-workshop-2025.hf.space/). Die No-Code Anwendungen sind im [HuggingFace Classroom](https://huggingface.co/classrooms) auf [huggingface.co/datenwerkzeuge](https://huggingface.co/datenwerkzeuge) bereitgestellt.
35
+
36
  ---
37
 
38
  Viel Erfolg und willkommen zum Workshop! 🎉
src/use_case.qmd CHANGED
@@ -3,7 +3,17 @@ listing:
3
  - id: use_case
4
  contents: "04_use_case"
5
  type: grid
 
 
 
6
  ---
7
 
 
 
 
 
 
 
 
8
  ::: {#use_case}
9
  :::
 
3
  - id: use_case
4
  contents: "04_use_case"
5
  type: grid
6
+ - id: bonus
7
+ contents: "04_use_case_bonus"
8
+ type: grid
9
  ---
10
 
11
+ ### Tutorials
12
+
13
+ ::: {#use_case}
14
+ :::
15
+
16
+ ### Bonus
17
+
18
  ::: {#use_case}
19
  :::