bsenst commited on
Commit
6dc63dd
·
1 Parent(s): c1a96d0

update glossar, add ressources

Browse files
src/01_setup/glossar.qmd CHANGED
@@ -49,6 +49,7 @@ In der Welt des Internets und der Computerwissenschaften gibt es eine Vielzahl v
49
  ## I wie IP-Rotation
50
  * Implicit Wait: Eine Methode in Selenium, bei der der Browser für eine bestimmte Zeit auf Elemente wartet, bevor eine Ausnahme geworfen wird.
51
  * Infinite Scroll: Eine Technik, bei der Inhalte dynamisch geladen werden, wenn der Benutzer nach unten scrollt, was spezielle Scraping-Methoden erfordert, um alle Daten zu erfassen.
 
52
  * IP-Rotation: Technik zum Wechseln der IP-Adresse während des Scrapings, um IP-Bannungen zu vermeiden und den Eindruck zu erwecken, dass Anfragen von verschiedenen Nutzern kommen.
53
 
54
  ## J wie JavaScript
@@ -85,6 +86,7 @@ In der Welt des Internets und der Computerwissenschaften gibt es eine Vielzahl v
85
 
86
  ## P wie Parser
87
  * Page Object Model: Ein Designmuster bei der Automatisierung, das die Repräsentation von Webseiten als Objekte mit bestimmten Methoden und Eigenschaften erlaubt.
 
88
  * Parser: Ein Programm, das eine Struktur (wie HTML) in eine andere Form, die für die Verarbeitung geeignet ist, umwandelt.
89
  * PhantomJS: War ein skriptbares Headless Webkit, das für Webscraping genutzt wurde; jedoch ist es seit 2018 nicht mehr weiterentwickelt.
90
  * Proxy: Ein Server, der als Mittelsmann zwischen einem Client und dem Internet fungiert. Kann verwendet werden, um Anfragen zu maskieren oder den Standort des Scrapers zu verschleiern.
 
49
  ## I wie IP-Rotation
50
  * Implicit Wait: Eine Methode in Selenium, bei der der Browser für eine bestimmte Zeit auf Elemente wartet, bevor eine Ausnahme geworfen wird.
51
  * Infinite Scroll: Eine Technik, bei der Inhalte dynamisch geladen werden, wenn der Benutzer nach unten scrollt, was spezielle Scraping-Methoden erfordert, um alle Daten zu erfassen.
52
+ * IP Blocking: Eine Sicherheits- und Schutzmaßnahme, die von Websites und Servern verwendet wird, um den Zugriff von bestimmten IP-Adressen zu verhindern. Websites können IP-Adressen blockieren, die häufige Anfragen senden. Zugriff auf Inhalte beschränken, die nur für bestimmte geografische Regionen freigegeben sind.
53
  * IP-Rotation: Technik zum Wechseln der IP-Adresse während des Scrapings, um IP-Bannungen zu vermeiden und den Eindruck zu erwecken, dass Anfragen von verschiedenen Nutzern kommen.
54
 
55
  ## J wie JavaScript
 
86
 
87
  ## P wie Parser
88
  * Page Object Model: Ein Designmuster bei der Automatisierung, das die Repräsentation von Webseiten als Objekte mit bestimmten Methoden und Eigenschaften erlaubt.
89
+ * Pagination: Eine Technik, Inhalte auf mehreren Seiten zu verteilen, anstatt alles auf einer einzigen Seite anzuzeigen. Um die Darstellung großer Datenmengen zu verwalten, indem die Ergebnisse in kleinere, überschaubare Teile aufgeteilt werden. Viele Websites verwenden ein konsistentes Muster in ihren URLs, um auf verschiedene Seiten zu verlinken (z.B. ?page=2). Manche Seiten laden Inhalte dynamisch, was bedeutet, dass ein Scraper möglicherweise JavaScript ausführen muss, um die nächsten Seiteninhalte zu laden.
90
  * Parser: Ein Programm, das eine Struktur (wie HTML) in eine andere Form, die für die Verarbeitung geeignet ist, umwandelt.
91
  * PhantomJS: War ein skriptbares Headless Webkit, das für Webscraping genutzt wurde; jedoch ist es seit 2018 nicht mehr weiterentwickelt.
92
  * Proxy: Ein Server, der als Mittelsmann zwischen einem Client und dem Internet fungiert. Kann verwendet werden, um Anfragen zu maskieren oder den Standort des Scrapers zu verschleiern.
src/01_setup/ressourcen.qmd ADDED
@@ -0,0 +1,16 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+
2
+ ## Online Kurse
3
+
4
+ [Online Web Scraping Courses - ParseHub Academy](https://academy.parsehub.com/collections)
5
+
6
+ [Saylor Academy CS402: Computer Communications and Networks](https://learn.saylor.org/course/view.php?id=790)
7
+
8
+ [Saylor Academy CS105: Introduction to Python](https://learn.saylor.org/course/view.php?id=439)
9
+
10
+ [Saylor Academy CS250: Python for Data Science](https://learn.saylor.org/course/view.php?id=504)
11
+
12
+ [Oxylabs Scraping Experts Lessons](https://experts.oxylabs.io/lessons)
13
+
14
+ [openHPI Web-Technologien](https://open.hpi.de/courses/www)
15
+
16
+ [openHPI Wegweisende Anwendungen im Web](https://open.hpi.de/courses/webtech2021-3)
src/_quarto.yml CHANGED
@@ -46,6 +46,8 @@ website:
46
  text: "Aufbereitung🤩"
47
  - href: 01_setup/glossar.qmd
48
  text: "Glossar"
 
 
49
  - title: "No Code"
50
  contents:
51
  - href: basics.qmd
 
46
  text: "Aufbereitung🤩"
47
  - href: 01_setup/glossar.qmd
48
  text: "Glossar"
49
+ - href: 01_setup/ressourcen.qmd
50
+ text: "Ressourcen"
51
  - title: "No Code"
52
  contents:
53
  - href: basics.qmd