File size: 4,703 Bytes
c850600 a8a19b7 c850600 287c4f6 de3b36d 287c4f6 de3b36d c850600 de3b36d c850600 1203cd3 de3b36d 1203cd3 4c464b0 1203cd3 c850600 22390ba 287c4f6 de3b36d 287c4f6 de3b36d 287c4f6 de3b36d 287c4f6 de3b36d 287c4f6 de3b36d 287c4f6 de3b36d bb1bcc2 22390ba de3b36d |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 |
---
title: "Webseiten-URL-Extraktor"
description: "Ein Tool zur Extraktion und Darstellung aller Links von einer angegebenen Webseite, einschließlich Filterung und übersichtlicher Darstellung."
image: _1fca0884-d58a-4271-b90f-90afcb2c4be9.jpeg
---
::: {.callout-tip}
## Lernziele
* Was ist eine URLs?
* Aus welchen Bestandteilen besteht eine URLs?
:::
## Funktionen
- **Webseitenanalyse**: Automatische Extraktion aller URLs von einer Webseite.
- **Filterung**: Nur vollständige Links (z. B. beginnend mit `http`) werden angezeigt.
- **Einfaches Interface**: Eingabefeld für die URLs und eine klare Liste der extrahierten Links.
## Anleitung
### 1. Öffnen der Anwendung
- Zur [Webseiten-URL-Extraktor-App](https://huggingface.co/spaces/datenwerkzeuge/Webseiten-URL-Extraktor) auf Hugging Face navigieren.
### 2. Eingabemethode wählen
- Eingabemethode auswählen: **URLs** oder **HTML-Datei hochladen**.
### 3. URLs extrahieren
#### URL-Eingabemethode:
- URL der Webseite in das Eingabefeld eingeben (z. B. `https://example.com`).
- Auf die Schaltfläche **"URLs extrahieren"** klicken.
- Die App extrahiert alle Links von der angegebenen Webseite und zeigt sie an. Nur vollständige Links, die mit `http` beginnen, werden angezeigt.
#### HTML-Datei hochladen:
- HTML-Datei hochladen, indem auf **"HTML-Datei hochladen"** geklickt und die Datei ausgewählt wird.
- Auf die Schaltfläche **"URLs extrahieren"** klicken.
- Die App extrahiert alle Links aus der hochgeladenen HTML-Datei und zeigt sie an. Nur vollständige Links, die mit `http` beginnen, werden angezeigt.
**Blick in den Quelltext:**
```python
links = [a.get('href') for a in soup.find_all('a', href=True)]
```
Der Code extrahiert alle URLs aus den `<a>`-Tags eines HTML-Dokuments und speichert sie in der Liste links.
1. ```python
soup.find_all('a', href=True)
```
Diese Methode durchsucht das HTML-Dokument nach allen `<a>`-Tags, die ein href-Attribut besitzen. soup ist dabei ein BeautifulSoup-Objekt, das das HTML-Dokument repräsentiert.
2. ```python
a.get('href')
```
Für jedes gefundene `<a>`-Tag wird der Wert des href-Attributs extrahiert.
3. ```python
[a.get('href') for a in soup.find_all('a', href=True)]
```
Die Auflistungsfunktion wiederholt die Extraktion für jeden Link im Dokument und erstellt eine Liste aller href-Werte (URLs) der gefundenen `<a>`-Tags.
### 4. Ergebnisse anzeigen
- Die extrahierten URLs werden in einer übersichtlichen Liste angezeigt. Die Links können direkt angeklickt werden, um sie zu öffnen.
## Fazit
Das Webseiten-URL-Extraktor-Tool bietet verdeutlicht das Filtern von Links auf Webseiten oder aus HTML-Dateien, indem es nur vollständige URLs darstellt.
::: {.callout-tip}
### Was ist eine URL?
Eine **URL** (Uniform Resource Locator) ist die Adresse eines bestimmten Dokuments oder Ressourcen im Internet. Sie dient dazu, Webanwendungen und -dienste eindeutig zu identifizieren und darauf zuzugreifen.
:::
::: {.callout-tip collapse="true"}
### Bestandteile einer URL
Eine typische URL besteht aus mehreren Teilen:
- **Schema**: Gibt das Protokoll an, das verwendet wird, um die Ressource zu erreichen (z.B. `http`, `https`, `ftp`).
- **Host**: Der Name oder die IP-Adresse des Servers, auf dem die Ressource gespeichert ist (z.B. `example.com`).
- **Port**: Optional; spezifiziert den Port, über den die Verbindung hergestellt wird, wenn es nicht der Standardport ist (z.B. `80` für HTTP oder `443` für HTTPS).
- **Pfad**: Zeigt den spezifischen Ort der Ressource auf dem Server an (z.B. `/pfad/zur/ressource.html`).
- **Query-Parameter**: Optional; verwendet, um zusätzliche Daten an den Server zu übergeben, oft nach einem `?` (z.B. `?id=123&name=test`).
- **Fragment**: Optional; identifiziert einen bestimmten Teil der Ressource, häufig verwendet in HTML-Dokumenten für interne Navigation (z.B. `#abschnitt`).
:::
::: {.callout-tip collapse="true"}
### Beispiel einer vollständigen URL
```plaintext
https://www.example.com:443/pfad/zur/ressource.html?id=123&name=test#abschnitt
```
* Schema: `https`
* Host: `www.example.com`
* Port: `443`
* Pfad: `/pfad/zur/ressource.html`
* Query-Parameter: `id=123&name=test`
* Fragment: `abschnitt`
Mit dieser Struktur kann ein Browser oder ein anderes Netzwerkprogramm die genaue Adresse einer Ressource im Internet bestimmen und darauf zugreifen.
:::
## Anwendungsfall
[Dead Link Checker](https://www.deadlinkchecker.com/) ist ein Online-Tool das nicht funktionierende Links (Dead Links) auf Webseiten identifiziert. An diesem Fall ist erkennbar wie eine einfache Anwendung, wie der URL-Extraktor, als Bestandteil in einer Geschäftsanwendung eingesetzt werden kann. |