File size: 2,930 Bytes
c850600 a8a19b7 c850600 1203cd3 4c464b0 1203cd3 c850600 22390ba bb1bcc2 22390ba |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 |
---
title: "Webseiten-URL-Extraktor"
description: "Ein Tool zur Extraktion und Darstellung aller Links von einer angegebenen Webseite, einschließlich Filterung und übersichtlicher Darstellung."
image: _1fca0884-d58a-4271-b90f-90afcb2c4be9.jpeg
---
## Funktionen
- **Webseitenanalyse**: Automatische Extraktion aller URLs von einer Webseite.
- **Filterung**: Nur vollständige Links (z. B. beginnend mit `http`) werden angezeigt.
- **Einfaches Interface**: Eingabefeld für die URL und eine klare Liste der extrahierten Links.
## Anleitung
### 1. Öffnen der Anwendung
- Zur [Webseiten-URL-Extraktor-App](https://huggingface.co/spaces/datenwerkzeuge/Webseiten-URL-Extraktor) auf Hugging Face navigieren.
### 2. Eingabemethode wählen
- Eingabemethode auswählen: **URL** oder **HTML-Datei hochladen**.
### 3. URLs extrahieren
#### URL-Eingabemethode:
- URL der Webseite in das Eingabefeld eingeben (z. B. `https://example.com`).
- Auf die Schaltfläche **"URLs extrahieren"** klicken.
- Die App extrahiert alle Links von der angegebenen Webseite und zeigt sie an. Nur vollständige Links, die mit `http` beginnen, werden angezeigt.
#### HTML-Datei hochladen:
- HTML-Datei hochladen, indem auf **"HTML-Datei hochladen"** geklickt und die Datei ausgewählt wird.
- Auf die Schaltfläche **"URLs extrahieren"** klicken.
- Die App extrahiert alle Links aus der hochgeladenen HTML-Datei und zeigt sie an. Nur vollständige Links, die mit `http` beginnen, werden angezeigt.
**Blick in den Quelltext:**
```python
links = [a.get('href') for a in soup.find_all('a', href=True)]
```
Der Code extrahiert alle URLs aus den `<a>`-Tags eines HTML-Dokuments und speichert sie in der Liste links.
1. ```python
soup.find_all('a', href=True)
```
Diese Methode durchsucht das HTML-Dokument nach allen `<a>`-Tags, die ein href-Attribut besitzen. soup ist dabei ein BeautifulSoup-Objekt, das das HTML-Dokument repräsentiert.
2. ```python
a.get('href')
```
Für jedes gefundene `<a>`-Tag wird der Wert des href-Attributs extrahiert.
3. ```python
[a.get('href') for a in soup.find_all('a', href=True)]
```
Die Auflistungsfunktion wiederholt die Extraktion für jeden Link im Dokument und erstellt eine Liste aller href-Werte (URLs) der gefundenen `<a>`-Tags.
### 4. Ergebnisse anzeigen
- Die extrahierten URLs werden in einer übersichtlichen Liste angezeigt. Die Links können direkt angeklickt werden, um sie zu öffnen.
## Fazit
Das Webseiten-URL-Extraktor-Tool bietet verdeutlicht das Filtern von Links auf Webseiten oder aus HTML-Dateien, indem es nur vollständige URLs darstellt.
## Anwendungsfall
[Dead Link Checker](https://www.deadlinkchecker.com/) ist ein Online-Tool das nicht funktionierende Links (Dead Links) auf Webseiten identifiziert. An diesem Fall ist erkennbar wie eine einfache Anwendung, wie der URL-Extraktor, als Bestandteil in einer Geschäftsanwendung eingesetzt werden kann.
|