将 HTML URL 转换为 Markdown 格式并检索页面链接

将 HTML URL 转换为 Markdown 格式并检索页面链接

Marketing/Content

此工作流程将从指定 URL 获取的 HTML 数据转换为 Markdown 格式，同时检索页面上存在的所有链接，这对于内容抓取和分析很有价值。

它是如何运作的

此工作流程从“HTTP 请求”节点开始，该节点配置为从指定 URL 获取 HTML 内容。收到响应后，HTML 数据被传递到“HTML Extract”节点。该节点负责解析 HTML 并提取页面上存在的所有超链接（锚标记）。然后使用“Function”节点将提取的链接格式化为 Markdown 友好格式，该节点处理数据以将 URL 转换为 Markdown 语法。最后，工作流程输出转换后的 Markdown 内容以及链接列表，使其适合内容抓取和分析。节点按顺序连接，确保数据从一个进程顺利流向下一进程。

主要特点

1. HTML 到 Markdown 转换

：该工作流程有效地将 HTML 内容转换为 Markdown 格式，广泛用于文档和内容管理。

2. 链接提取

：它从提供的 HTML 页面中检索所有超链接，允许用户收集有关内容结构和外部引用的有价值的信息。

3. 自动化流程

：整个工作流程自动化，使用户无需人工干预即可快速转换和提取数据。

4. 可自定义输入

：用户可以指定任何 URL 来获取 HTML 内容，使工作流程适用于不同的网页。

5. 数据输出

：最终输出包括Markdown内容和提取的链接列表，为进一步分析提供全面的数据。

工具集成

该工作流程集成了以下工具和服务：

- HTTP 请求节点

：用于进行 HTTP 调用以从指定 URL 检索 HTML 内容。

- HTML 提取节点

：用于解析 HTML 响应并提取超链接。

- 功能节点

：用于将提取的链接格式化为 Markdown 语法。

需要 API 密钥

此工作流程无需 API 密钥、凭据或身份验证配置即可运行。它仅基于对指定 URL 的 HTTP 请求进行操作，无需额外设置即可用于一般用途。

将 HTML URL 转换为 Markdown 格式并检索页面链接

类似工作流程

利用 AI 查询 PDF

利用 AI 查询 PDF

Customer Support/Knowledge Management

此工作流程从 Google Drive 检索 PDF 文件，将其分为多个片段，使用 OpenAI 嵌入处理这些片段，并促进与文档内容的对话交互。

使用模板 MistralAI 和 Qdrant 将文档解构为学习笔记

使用模板 MistralAI 和 Qdrant 将文档解构为学习笔记

Education/Knowledge Management

该工作流程在新文件到达时激活，利用 MistralAI 嵌入来处理文档，并将信息保存在 Qdrant 矢量存储中以创建学习笔记。

使用多模态视觉 AI 进行简历 PDF 分析

使用多模态视觉 AI 进行简历 PDF 分析

该工作流程将候选人简历 PDF 转换为图像，采用视觉语言模型来评估候选人的适合性，并结合逻辑来规避简历中隐藏的人工智能提示。

文本处理 ETL 工作流程

文本处理 ETL 工作流程

Data Analytics/IT

该工作流程建立了一个用于文本分析的 ETL 管道，从 Twitter 检索信息，将其保存在 MongoDB 和 PostgreSQL 中，并根据情绪评估向 Slack 发送警报。

利用 Claude 和 Gemini 直接从 PDF 文件检索和分析数据。

利用 Claude 和 Gemini 直接从 PDF 文件检索和分析数据。

Data Extraction/IT

该工作流程利用 Claude 和 Gemini 等复杂的 AI 模型直接从 PDF 检索和分析数据，从而促进智能文档检查。

使用 Gotenberg 从简历中检索信息并生成 PDF。

使用 Gotenberg 从简历中检索信息并生成 PDF。

该工作流程利用 AI 从简历中提取有组织的信息，将其转换为 HTML 格式，然后使用 Gotenberg 创建格式正确的 PDF。

从通过 n8n 表格提交的图像中检索车辆登记号。

从通过 n8n 表格提交的图像中检索车辆登记号。

Operations/Logistics

该工作流程利用视觉语言模型从通过 n8n 表单提交的图像中检索车牌号，随后呈现收集到的数据。

使用 LlamaParse 和 OpenAI 提取发票信息

使用 LlamaParse 和 OpenAI 提取发票信息

该工作流程利用 LlamaParse 和 OpenAI 从发票中提取有组织的数据，随后使用结构化输出解析器从发票中获取全面的详细信息。