--- title: "Webseiten-URL-Extraktor" description: "Ein Tool zur Extraktion und Darstellung aller Links von einer angegebenen Webseite, einschließlich Filterung und übersichtlicher Darstellung." image: _1fca0884-d58a-4271-b90f-90afcb2c4be9.jpeg --- ## Funktionen - **Webseitenanalyse**: Automatische Extraktion aller URLs von einer Webseite. - **Filterung**: Nur vollständige Links (z. B. beginnend mit `http`) werden angezeigt. - **Einfaches Interface**: Eingabefeld für die URL und eine klare Liste der extrahierten Links. ## Anleitung ### 1. Öffnen der Anwendung - Zur [Webseiten-URL-Extraktor-App](https://huggingface.co/spaces/datenwerkzeuge/Webseiten-URL-Extraktor) auf Hugging Face navigieren. ### 2. Eingabemethode wählen - Eingabemethode auswählen: **URL** oder **HTML-Datei hochladen**. ### 3. URLs extrahieren #### URL-Eingabemethode: - URL der Webseite in das Eingabefeld eingeben (z. B. `https://example.com`). - Auf die Schaltfläche **"URLs extrahieren"** klicken. - Die App extrahiert alle Links von der angegebenen Webseite und zeigt sie an. Nur vollständige Links, die mit `http` beginnen, werden angezeigt. #### HTML-Datei hochladen: - HTML-Datei hochladen, indem auf **"HTML-Datei hochladen"** geklickt und die Datei ausgewählt wird. - Auf die Schaltfläche **"URLs extrahieren"** klicken. - Die App extrahiert alle Links aus der hochgeladenen HTML-Datei und zeigt sie an. Nur vollständige Links, die mit `http` beginnen, werden angezeigt. **Blick in den Quelltext:** ```python links = [a.get('href') for a in soup.find_all('a', href=True)] ``` Der Code extrahiert alle URLs aus den ``-Tags eines HTML-Dokuments und speichert sie in der Liste links. 1. ```python soup.find_all('a', href=True) ``` Diese Methode durchsucht das HTML-Dokument nach allen ``-Tags, die ein href-Attribut besitzen. soup ist dabei ein BeautifulSoup-Objekt, das das HTML-Dokument repräsentiert. 2. ```python a.get('href') ``` Für jedes gefundene ``-Tag wird der Wert des href-Attributs extrahiert. 3. ```python [a.get('href') for a in soup.find_all('a', href=True)] ``` Die Auflistungsfunktion wiederholt die Extraktion für jeden Link im Dokument und erstellt eine Liste aller href-Werte (URLs) der gefundenen ``-Tags. ### 4. Ergebnisse anzeigen - Die extrahierten URLs werden in einer übersichtlichen Liste angezeigt. Die Links können direkt angeklickt werden, um sie zu öffnen. ## Fazit Das Webseiten-URL-Extraktor-Tool bietet verdeutlicht das Filtern von Links auf Webseiten oder aus HTML-Dateien, indem es nur vollständige URLs darstellt. ## Anwendungsfall [Dead Link Checker](https://www.deadlinkchecker.com/) ist ein Online-Tool das nicht funktionierende Links (Dead Links) auf Webseiten identifiziert. An diesem Fall ist erkennbar wie eine einfache Anwendung, wie der URL-Extraktor, als Bestandteil in einer Geschäftsanwendung eingesetzt werden kann.