247 讀數

为什么新的 AI 代理选择 Markdown 而不是 HTML？

经过 Bright Data7m2025/03/19

太長; 讀書

了解 AI 代理为何将 HTML 转换为 Markdown，从而将令牌使用量减少高达 99%！处理速度更快，成本更低 — AI 效率最佳。

featured image - 为什么新的 AI 代理选择 Markdown 而不是 HTML？

AI 代理正在接管世界，标志着 AI 进化的下一个重大步骤 🦖。那么，所有这些代理有什么共同点？它们在处理网页内容时使用 Markdown 而不是原始 HTML ⛓️。想知道为什么吗？

这篇博文将向您展示如何通过这个简单的技巧节省高达 99% 的代币和金钱！

人工智能代理和数据处理：简介

AI 代理是利用人工智能的力量代表用户完成任务和追求目标的软件系统。这些代理具备推理、规划和记忆能力，可以自行做出决策、学习和适应。🤯

近几个月来，AI 代理已开始流行，尤其是在浏览器自动化领域。这些 AI 代理浏览器使您可以使用 LLM 以编程方式控制浏览器，自动执行将产品添加到 Amazon 购物车等任务 🛒。

有没有想过哪些库和框架为Crawl4AI 、 ScrapeGraphAI和LangChain等 AI 代理提供支持？

在处理网页数据时，这些解决方案通常会在将数据发送到 LLM 之前自动将 HTML 转换为 Markdown （或提供这样做的方法）。但为什么这些 AI 代理更喜欢 Markdown 而不是 HTML？🧐

简短的回答是：为了节省代币并加快处理速度！ ⏩

是时候深入挖掘了！但首先，让我们看看 AI 代理用来减少数据负载的另一种流行方法。👀

从数据过载到清晰：人工智能代理的第一步

想象一下，你希望你的人工智能代理能够：

连接到电子商务网站（例如亚马逊）
搜索产品（例如 PlayStation 5）
从特定产品页面提取数据

对于 AI 代理来说，这是一种常见情况，因为电子商务抓取是一项艰巨的任务🎢。毕竟，产品页面布局不断变化，混乱不堪，使程序化数据解析成为一场噩梦。这就是 AI 代理展示其超能力的地方 💪，利用 LLM 无缝提取数据——无论页面结构多么混乱！

现在，假设你的任务是从亚马逊上的PlayStation 5 产品页面获取所有有趣的详细信息：

以下是你如何命令你的AI代理浏览器来实现这一点：

 Navigate to Amazon's homepage. Search for 'PlayStation 5' and select the top result. Extract the product title, price, availability, and customer ratings. Return the data in a structured JSON format.

这就是人工智能代理应该（希望如此）做的事情：

在浏览器中打开亚马逊🌍
搜索“PlayStation 5”🔍
识别正确的产品🎯
从页面中提取产品详细信息并以 JSON 形式返回 📄

但真正的挑战是——第 4 步。亚马逊 PlayStation 5 产品页面太复杂了！HTML 包含大量信息，其中大部分您甚至不需要。

想要证据吗？从浏览器的 DOM 复制页面的完整 HTML，然后将其放入LLM Token Calculator 工具等工具中：

🚨做好准备……

896,871 个代币？！ 😱 是的，你没看错——八十九万六千八百七十一枚代币！

这是海量的数据，也就是巨额资金！💸（GPT-4o 上每个请求收费超过 2 美元！😬）

可以想象，将所有数据传递给人工智能代理会带来很大的局限性：

可能需要支持高代币使用率的高级/专业计划💰
花费一大笔钱 — — 特别是如果你经常运行查询的话 🤑
由于人工智能必须处理大量信息，因此响应速度变慢 ⏳

解决方法：减少脂肪

大多数 AI 代理允许您指定 CSS 选择器以仅提取网页的相关部分。其他代理使用启发式算法来自动过滤内容 - 例如删除页眉和页脚（通常没有任何价值）。✂️

例如，如果你检查亚马逊的 PlayStation 5 产品页面，你会注意到大多数有用的内容都位于#ppd CSS 选择器标识的 HTML 元素内：

现在，如果你告诉你的 AI 代理只关注#ppd元素而不是整个页面会怎么样？这会有所不同吗？🤔

让我们在下面的面对面对决中测试一下吧！🔥

Markdown 与 HTML 在 AI 数据处理中的对比

比较直接处理网页一部分与将其转换为 Markdown 时的令牌使用情况。

HTML

在您的浏览器中，复制#ppd元素的 HTML，然后将其放入 LLM Token Calculator 工具中：

从 896,871 个代币降至仅 309,951 个——节省了近 65%！

当然，这是一个巨大的下降，但让我们面对现实吧——代币数量还是太多了！😵‍💸

Markdown

现在，让我们利用在线 HTML 到 Markdown 转换工具来复制 AI 代理使用的技巧。但首先，请记住，AI 代理会执行一些预处理来删除内容无关紧要的标签，例如<style>和<script>标签。

您可以在浏览器控制台中使用这个简单的脚本过滤目标元素的 HTML：

 function removeScriptsAndStyles(element) { let htmlString = ppdElement.innerHTML; // Regex to match all <script>...</script> and <style>...</style> tags const scriptRegex = /<script[^>]*>[\s\S]*?<\/script>/gi; const styleRegex = /<style[^>]*>[\s\S]*?<\/style>/gi; // Remove all <script> and <style> tags let cleanHTML = htmlString.replace(scriptRegex, ''); cleanHTML = cleanHTML.replace(styleRegex, ''); } // select the target element and get its cleaned HTML const ppdElement = document.getElementById('ppd'); removeScriptsAndStyles(ppdElement);

接下来，复制清理后的 HTML，并使用在线HTML 到 Markdown 转换工具将其转换为 Markdown：

生成的 Markdown 明显较小，但仍然包含所有重要的文本数据！

现在，将此 Markdown 粘贴到 LLM Token Calculator 工具中：

轰！💣 从 896,871 个代币降至仅 7,943 个代币。这真是令人瞠目结舌的节省，节省了约 99% ！

只需删除基本内容并将 HTML 转换为 Markdown，您就可以获得更精简的有效负载、更低的成本和更快的处理速度。大获全胜！ 💰

Markdown 与 HTML：代币之争和成本节约

最后一步是验证 Markdown 文本是否仍包含所有关键数据。为此，将其与原始提示的最后一部分一起传递给 LLM，您将获得以下 JSON 结果：

 { "product_title": "PlayStation®5 console (slim)", "price": "$499.00", "availability": "In stock", "customer_ratings": { "rating": 4.6, "total_ratings": 5814 } }

这正是您的 AI 代理将返回的结果 — — 完全正确！

为了快速概览，请查看下面的最终摘要表：

方法	代币	o1-mini 价格	gpt-4o-mini 价格	gpt-4o 价格
整个 HTML	896,871	13.4531美元	0.1345 美元	2.2422美元
`#ppd` HTML	309,951	$4.6493	0.0465 美元	0.7749美元
`#ppd` Markdown	7,943	0.0596 美元	0.0012美元	0.0199美元