update glossar, add ressources
Browse files- src/01_setup/glossar.qmd +2 -0
- src/01_setup/ressourcen.qmd +16 -0
- src/_quarto.yml +2 -0
src/01_setup/glossar.qmd
CHANGED
@@ -49,6 +49,7 @@ In der Welt des Internets und der Computerwissenschaften gibt es eine Vielzahl v
|
|
49 |
## I wie IP-Rotation
|
50 |
* Implicit Wait: Eine Methode in Selenium, bei der der Browser für eine bestimmte Zeit auf Elemente wartet, bevor eine Ausnahme geworfen wird.
|
51 |
* Infinite Scroll: Eine Technik, bei der Inhalte dynamisch geladen werden, wenn der Benutzer nach unten scrollt, was spezielle Scraping-Methoden erfordert, um alle Daten zu erfassen.
|
|
|
52 |
* IP-Rotation: Technik zum Wechseln der IP-Adresse während des Scrapings, um IP-Bannungen zu vermeiden und den Eindruck zu erwecken, dass Anfragen von verschiedenen Nutzern kommen.
|
53 |
|
54 |
## J wie JavaScript
|
@@ -85,6 +86,7 @@ In der Welt des Internets und der Computerwissenschaften gibt es eine Vielzahl v
|
|
85 |
|
86 |
## P wie Parser
|
87 |
* Page Object Model: Ein Designmuster bei der Automatisierung, das die Repräsentation von Webseiten als Objekte mit bestimmten Methoden und Eigenschaften erlaubt.
|
|
|
88 |
* Parser: Ein Programm, das eine Struktur (wie HTML) in eine andere Form, die für die Verarbeitung geeignet ist, umwandelt.
|
89 |
* PhantomJS: War ein skriptbares Headless Webkit, das für Webscraping genutzt wurde; jedoch ist es seit 2018 nicht mehr weiterentwickelt.
|
90 |
* Proxy: Ein Server, der als Mittelsmann zwischen einem Client und dem Internet fungiert. Kann verwendet werden, um Anfragen zu maskieren oder den Standort des Scrapers zu verschleiern.
|
|
|
49 |
## I wie IP-Rotation
|
50 |
* Implicit Wait: Eine Methode in Selenium, bei der der Browser für eine bestimmte Zeit auf Elemente wartet, bevor eine Ausnahme geworfen wird.
|
51 |
* Infinite Scroll: Eine Technik, bei der Inhalte dynamisch geladen werden, wenn der Benutzer nach unten scrollt, was spezielle Scraping-Methoden erfordert, um alle Daten zu erfassen.
|
52 |
+
* IP Blocking: Eine Sicherheits- und Schutzmaßnahme, die von Websites und Servern verwendet wird, um den Zugriff von bestimmten IP-Adressen zu verhindern. Websites können IP-Adressen blockieren, die häufige Anfragen senden. Zugriff auf Inhalte beschränken, die nur für bestimmte geografische Regionen freigegeben sind.
|
53 |
* IP-Rotation: Technik zum Wechseln der IP-Adresse während des Scrapings, um IP-Bannungen zu vermeiden und den Eindruck zu erwecken, dass Anfragen von verschiedenen Nutzern kommen.
|
54 |
|
55 |
## J wie JavaScript
|
|
|
86 |
|
87 |
## P wie Parser
|
88 |
* Page Object Model: Ein Designmuster bei der Automatisierung, das die Repräsentation von Webseiten als Objekte mit bestimmten Methoden und Eigenschaften erlaubt.
|
89 |
+
* Pagination: Eine Technik, Inhalte auf mehreren Seiten zu verteilen, anstatt alles auf einer einzigen Seite anzuzeigen. Um die Darstellung großer Datenmengen zu verwalten, indem die Ergebnisse in kleinere, überschaubare Teile aufgeteilt werden. Viele Websites verwenden ein konsistentes Muster in ihren URLs, um auf verschiedene Seiten zu verlinken (z.B. ?page=2). Manche Seiten laden Inhalte dynamisch, was bedeutet, dass ein Scraper möglicherweise JavaScript ausführen muss, um die nächsten Seiteninhalte zu laden.
|
90 |
* Parser: Ein Programm, das eine Struktur (wie HTML) in eine andere Form, die für die Verarbeitung geeignet ist, umwandelt.
|
91 |
* PhantomJS: War ein skriptbares Headless Webkit, das für Webscraping genutzt wurde; jedoch ist es seit 2018 nicht mehr weiterentwickelt.
|
92 |
* Proxy: Ein Server, der als Mittelsmann zwischen einem Client und dem Internet fungiert. Kann verwendet werden, um Anfragen zu maskieren oder den Standort des Scrapers zu verschleiern.
|
src/01_setup/ressourcen.qmd
ADDED
@@ -0,0 +1,16 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
|
2 |
+
## Online Kurse
|
3 |
+
|
4 |
+
[Online Web Scraping Courses - ParseHub Academy](https://academy.parsehub.com/collections)
|
5 |
+
|
6 |
+
[Saylor Academy CS402: Computer Communications and Networks](https://learn.saylor.org/course/view.php?id=790)
|
7 |
+
|
8 |
+
[Saylor Academy CS105: Introduction to Python](https://learn.saylor.org/course/view.php?id=439)
|
9 |
+
|
10 |
+
[Saylor Academy CS250: Python for Data Science](https://learn.saylor.org/course/view.php?id=504)
|
11 |
+
|
12 |
+
[Oxylabs Scraping Experts Lessons](https://experts.oxylabs.io/lessons)
|
13 |
+
|
14 |
+
[openHPI Web-Technologien](https://open.hpi.de/courses/www)
|
15 |
+
|
16 |
+
[openHPI Wegweisende Anwendungen im Web](https://open.hpi.de/courses/webtech2021-3)
|
src/_quarto.yml
CHANGED
@@ -46,6 +46,8 @@ website:
|
|
46 |
text: "Aufbereitung🤩"
|
47 |
- href: 01_setup/glossar.qmd
|
48 |
text: "Glossar"
|
|
|
|
|
49 |
- title: "No Code"
|
50 |
contents:
|
51 |
- href: basics.qmd
|
|
|
46 |
text: "Aufbereitung🤩"
|
47 |
- href: 01_setup/glossar.qmd
|
48 |
text: "Glossar"
|
49 |
+
- href: 01_setup/ressourcen.qmd
|
50 |
+
text: "Ressourcen"
|
51 |
- title: "No Code"
|
52 |
contents:
|
53 |
- href: basics.qmd
|