
Extrahieren und verdichten Sie Artikel von einer Nachrichten-Website ohne RSS-Feed mithilfe von KI und speichern Sie die Ergebnisse in NocoDB.
Extrahiert und komprimiert Nachrichtenartikel ohne RSS-Feeds mithilfe von KI, wobei die Ergebnisse in NocoDB gespeichert werden.
Wie es funktioniert
Der Workflow beginnt mit einem Knoten
HTTP-Anfrage
, der so konfiguriert ist, dass er den HTML-Inhalt einer bestimmten Nachrichten-Website abruft, die keinen RSS-Feed bereitstellt. Dieser Knoten ist so eingestellt, dass er eine GET-Anfrage an die Ziel-URL durchführt und den gesamten Seiteninhalt abruft. Die Ausgabe dieses Knotens ist das Roh-HTML, das dann zur Verarbeitung an den nächsten Knoten übergeben wird.Nach dem HTTP-Anforderungsknoten gibt es einen
HTML-Extrakt
-Knoten. Dieser Knoten ist für das Parsen des aus dem vorherigen Schritt abgerufenen HTML-Inhalts verantwortlich. Es verwendet CSS-Selektoren, um bestimmte Elemente aus dem HTML zu identifizieren und zu extrahieren, wie z. B. Artikeltitel, Veröffentlichungsdaten und den Hauptteil der Artikel. Die extrahierten Daten sind in einem besser verwaltbaren Format strukturiert, typischerweise als JSON.Als nächstes enthält der Workflow einen
Funktionsknoten
, der die extrahierten Daten weiter verarbeitet. In diesem Knoten werden die Artikel mithilfe von KI-Techniken verdichtet. Abhängig von der spezifischen Implementierung kann dies eine Zusammenfassung des Inhalts oder die Extraktion wichtiger Punkte sein. Die Ausgabe dieses Knotens ist eine zusammengefasste Version der Artikel, bereit zur Speicherung.Der letzte Schritt im Workflow ist ein
NocoDB
-Knoten, der zum Speichern der zusammengefassten Artikel in einer NocoDB-Datenbank verwendet wird. Dieser Knoten ist so konfiguriert, dass er neue Datensätze in einer angegebenen Tabelle erstellt, wobei jeder Datensatz einem zusammengefassten Artikel entspricht. Die an NocoDB gesendeten Daten umfassen den Titel, die Zusammenfassung und alle anderen relevanten Metadaten, die zuvor extrahiert wurden.Während des gesamten Workflows fließen die Daten sequentiell von einem Knoten zum nächsten und wandeln Roh-HTML in strukturierte, zusammengefasste Inhalte um, die in einer Datenbank gespeichert werden, um einen einfachen Zugriff und eine einfache Verwaltung zu ermöglichen.
Hauptmerkmale
1. KI-gestützte Zusammenfassung:
Der Workflow nutzt KI-Techniken, um lange Artikel in prägnante Zusammenfassungen zu verdichten, sodass Benutzer die wesentlichen Informationen schneller erfassen können.
2. HTML-Inhaltsextraktion:
Durch das direkte Scrapen von HTML-Inhalten von Websites ohne RSS-Feeds kann der Workflow Nachrichtenartikel aus einer Vielzahl von Quellen sammeln, die sonst nicht zugänglich wären.
3. Integration mit NocoDB:
Die Möglichkeit, zusammengefasste Artikel in NocoDB zu speichern, ermöglicht eine organisierte Datenverwaltung und einen einfachen Abruf, was weitere Analysen oder Berichte erleichtert.
4. Anpassbare Datenextraktion:
Die Verwendung von CSS-Selektoren im HTML-Extraktknoten ermöglicht es Benutzern, anzupassen, welche Elemente der Artikel sie extrahieren möchten, und bietet so Flexibilität basierend auf verschiedenen Website-Strukturen.
5. Automatisierter Arbeitsablauf:
Der gesamte Prozess ist automatisiert, wodurch die Notwendigkeit einer manuellen Datenerfassung und -zusammenfassung reduziert wird, was den Benutzern Zeit und Aufwand spart.
Tools-Integration
- HTTP-Anforderungsknoten:
Wird zum Abrufen von HTML-Inhalten von der angegebenen Nachrichten-Website verwendet.
- HTML-Extraktknoten:
Analysiert den HTML-Code und extrahiert relevante Artikeldaten mithilfe von CSS-Selektoren.
- Funktionsknoten:
Verarbeitet die extrahierten Daten und nutzt KI zur Zusammenfassung.
- NocoDB-Knoten:
Speichert die zusammengefassten Artikel in einer NocoDB-Datenbank für eine strukturierte Datenverwaltung.
API-Schlüssel erforderlich
Für die Funktion dieses Workflows sind keine API-Schlüssel oder Authentifizierungsdaten erforderlich. Die verwendeten Knoten funktionieren ohne externen API-Zugriff und verlassen sich ausschließlich auf die HTTP-Anfrage an die Nachrichten-Website und die Integration mit NocoDB zur Datenspeicherung.










