
Wandeln Sie HTML-URLs in das Markdown-Format um und rufen Sie Seitenlinks ab
Dieser Workflow wandelt HTML-Daten, die von einer bestimmten URL stammen, in das Markdown-Format um und ruft gleichzeitig alle auf der Seite vorhandenen Links ab, was sie für das Content-Scraping und die Analyse wertvoll macht.
Wie es funktioniert
Dieser Workflow beginnt mit dem Knoten „HTTP-Anfrage“, der so konfiguriert ist, dass er HTML-Inhalte von einer angegebenen URL abruft. Nach Erhalt der Antwort werden die HTML-Daten an den Knoten „HTML Extract“ übergeben. Dieser Knoten ist für das Parsen des HTML-Codes und das Extrahieren aller auf der Seite vorhandenen Hyperlinks (Anker-Tags) verantwortlich. Die extrahierten Links werden dann mithilfe des Knotens „Funktion“, der die Daten verarbeitet, um die URLs in die Markdown-Syntax umzuwandeln, in ein Markdown-freundliches Format formatiert. Schließlich gibt der Workflow den transformierten Markdown-Inhalt zusammen mit der Liste der Links aus, sodass er für das Content-Scraping und die Analyse geeignet ist. Die Knoten sind sequentiell verbunden und sorgen so für einen reibungslosen Datenfluss von einem Prozess zum nächsten.
Hauptmerkmale
1. HTML-zu-Markdown-Konvertierung:
Der Workflow wandelt HTML-Inhalte effektiv in das Markdown-Format um, das häufig für Dokumentation und Inhaltsverwaltung verwendet wird.
2. Link-Extraktion:
Es ruft alle Hyperlinks von der bereitgestellten HTML-Seite ab und ermöglicht es Benutzern, wertvolle Informationen über die Struktur des Inhalts und externe Referenzen zu sammeln.
3. Automatisierter Prozess:
Der gesamte Workflow ist automatisiert, sodass Benutzer Daten ohne manuelles Eingreifen schnell konvertieren und extrahieren können.
4. Anpassbare Eingabe:
Benutzer können eine beliebige URL zum Abrufen von HTML-Inhalten angeben, wodurch der Workflow für verschiedene Webseiten vielseitig ist.
5. Datenausgabe:
Die endgültige Ausgabe umfasst sowohl den Markdown-Inhalt als auch die Liste der extrahierten Links und stellt umfassende Daten für die weitere Analyse bereit.
Tools-Integration
Der Workflow integriert die folgenden Tools und Dienste:
- HTTP-Anforderungsknoten:
Wird verwendet, um einen HTTP-Aufruf durchzuführen, um HTML-Inhalte von einer angegebenen URL abzurufen.
- HTML-Extraktknoten:
Wird zum Parsen der HTML-Antwort und zum Extrahieren von Hyperlinks verwendet.
- Funktionsknoten:
Wird verwendet, um die extrahierten Links in Markdown-Syntax zu formatieren.
API-Schlüssel erforderlich
Für die Funktion dieses Workflows sind keine API-Schlüssel, Anmeldeinformationen oder Authentifizierungskonfigurationen erforderlich. Es funktioniert ausschließlich auf der Grundlage der HTTP-Anfrage an die angegebene URL und macht es für den allgemeinen Gebrauch ohne zusätzliche Einrichtung zugänglich.








