paint-brush
为什么新的 AI 代理选择 Markdown 而不是 HTML?经过@brightdata
247 讀數

为什么新的 AI 代理选择 Markdown 而不是 HTML?

经过 Bright Data7m2025/03/19
Read on Terminal Reader

太長; 讀書

了解 AI 代理为何将 HTML 转换为 Markdown,从而将令牌使用量减少高达 99%!处理速度更快,成本更低 — AI 效率最佳。
featured image - 为什么新的 AI 代理选择 Markdown 而不是 HTML?
Bright Data HackerNoon profile picture
0-item

AI 代理正在接管世界,标志着 AI 进化的下一个重大步骤 🦖。那么,所有这些代理有什么共同点?它们在处理网页内容时使用 Markdown 而不是原始 HTML ⛓️。想知道为什么吗?


这篇博文将向您展示如何通过这个简单的技巧节省高达 99% 的代币和金钱!

人工智能代理和数据处理:简介

AI 代理是利用人工智能的力量代表用户完成任务和追求目标的软件系统。这些代理具备推理、规划和记忆能力,可以自行做出决策、学习和适应。🤯


近几个月来,AI 代理已开始流行,尤其是在浏览器自动化领域。这些 AI 代理浏览器使您可以使用 LLM 以编程方式控制浏览器,自动执行将产品添加到 Amazon 购物车等任务 🛒。


有没有想过哪些库和框架为Crawl4AIScrapeGraphAILangChain等 AI 代理提供支持?


在处理网页数据时,这些解决方案通常会在将数据发送到 LLM 之前自动将 HTML 转换为 Markdown (或提供这样做的方法)。但为什么这些 AI 代理更喜欢 Markdown 而不是 HTML?🧐


为什么?


简短的回答是:为了节省代币并加快处理速度!


是时候深入挖掘了!但首先,让我们看看 AI 代理用来减少数据负载的另一种流行方法。👀

从数据过载到清晰:人工智能代理的第一步

想象一下,你希望你的人工智能代理能够:

  1. 连接到电子商务网站(例如亚马逊)

  2. 搜索产品(例如 PlayStation 5)

  3. 从特定产品页面提取数据


对于 AI 代理来说,这是一种常见情况,因为电子商务抓取是一项艰巨的任务🎢。毕竟,产品页面布局不断变化,混乱不堪,使程序化数据解析成为一场噩梦。这就是 AI 代理展示其超能力的地方 💪,利用 LLM 无缝提取数据——无论页面结构多么混乱!


现在,假设你的任务是从亚马逊上的PlayStation 5 产品页面获取所有有趣的详细信息:


PlayStation 5 亚马逊产品页面


以下是你如何命令你的AI代理浏览器来实现这一点:


 Navigate to Amazon's homepage. Search for 'PlayStation 5' and select the top result. Extract the product title, price, availability, and customer ratings. Return the data in a structured JSON format.


这就是人工智能代理应该(希望如此)做的事情:

  1. 在浏览器中打开亚马逊🌍

  2. 搜索“PlayStation 5”🔍

  3. 识别正确的产品🎯

  4. 从页面中提取产品详细信息并以 JSON 形式返回 📄


但真正的挑战是——第 4 步。亚马逊 PlayStation 5 产品页面太复杂了!HTML 包含大量信息,其中大部分您甚至不需要。


想要证据吗?从浏览器的 DOM 复制页面的完整 HTML,然后将其放入LLM Token Calculator 工具等工具中:


来自 token-calculator.net 的结果


🚨做好准备……


896,871 个代币!


896,871 个代币?! 😱 是的,你没看错——八十九万六千八百七十一枚代币!


这是海量的数据,也就是巨额资金!💸(GPT-4o 上每个请求收费超过 2 美元!😬)


听听乔·巴斯提亚尼奇的说法……


可以想象,将所有数据传递给人工智能代理会带来很大的局限性:

  1. 可能需要支持高代币使用率的高级/专业计划💰
  2. 花费一大笔钱 — — 特别是如果你经常运行查询的话 🤑
  3. 由于人工智能必须处理大量信息,因此响应速度变慢 ⏳

解决方法:减少脂肪

大多数 AI 代理允许您指定 CSS 选择器以仅提取网页的相关部分。其他代理使用启发式算法来自动过滤内容 - 例如删除页眉和页脚(通常没有任何价值)。✂️


例如,如果你检查亚马逊的 PlayStation 5 产品页面,你会注意到大多数有用的内容都位于#ppd CSS 选择器标识的 HTML 元素内:


#ppd HTML 元素


现在,如果你告诉你的 AI 代理只关注#ppd元素而不是整个页面会怎么样?这会有所不同吗?🤔


让我们在下面的面对面对决中测试一下吧!🔥

Markdown 与 HTML 在 AI 数据处理中的对比

比较直接处理网页一部分与将其转换为 Markdown 时的令牌使用情况。

HTML

在您的浏览器中,复制#ppd元素的 HTML,然后将其放入 LLM Token Calculator 工具中:


这次是 309,951 个代币


从 896,871 个代币降至仅 309,951 个——节省了近 65%!


当然,这是一个巨大的下降,但让我们面对现实吧——代币数量还是太多了!😵‍💸

Markdown

现在,让我们利用在线 HTML 到 Markdown 转换工具来复制 AI 代理使用的技巧。但首先,请记住,AI 代理会执行一些预处理来删除内容无关紧要的标签,例如<style><script>标签。


您可以在浏览器控制台中使用这个简单的脚本过滤目标元素的 HTML:


 function removeScriptsAndStyles(element) { let htmlString = ppdElement.innerHTML; // Regex to match all <script>...</script> and <style>...</style> tags const scriptRegex = /<script[^>]*>[\s\S]*?<\/script>/gi; const styleRegex = /<style[^>]*>[\s\S]*?<\/style>/gi; // Remove all <script> and <style> tags let cleanHTML = htmlString.replace(scriptRegex, ''); cleanHTML = cleanHTML.replace(styleRegex, ''); } // select the target element and get its cleaned HTML const ppdElement = document.getElementById('ppd'); removeScriptsAndStyles(ppdElement);


接下来,复制清理后的 HTML,并使用在线HTML 到 Markdown 转换工具将其转换为 Markdown:


HTML 到 Markdown


生成的 Markdown 明显较小,但仍然包含所有重要的文本数据!


哇!


现在,将此 Markdown 粘贴到 LLM Token Calculator 工具中:


7,943 个代币!


轰!💣 从 896,871 个代币降至仅 7,943 个代币。这真是令人瞠目结舌的节省,节省了约 99%


多么令人兴奋的结果!


只需删除基本内容并将 HTML 转换为 Markdown,您就可以获得更精简的有效负载、更低的成本和更快的处理速度。大获全胜! 💰

Markdown 与 HTML:代币之争和成本节约

最后一步是验证 Markdown 文本是否仍包含所有关键数据。为此,将其与原始提示的最后一部分一起传递给 LLM,您将获得以下 JSON 结果:


 { "product_title": "PlayStation®5 console (slim)", "price": "$499.00", "availability": "In stock", "customer_ratings": { "rating": 4.6, "total_ratings": 5814 } }

这正是您的 AI 代理将返回的结果 — — 完全正确!


为了快速概览,请查看下面的最终摘要表:


方法

代币

o1-mini 价格

gpt-4o-mini 价格

gpt-4o 价格

整个 HTML

896,871

13.4531美元

0.1345 美元

2.2422美元

#ppd HTML

309,951

$4.6493

0.0465 美元

0.7749美元

#ppd Markdown

7,943

0.0596 美元

0.0012美元

0.0199美元

人工智能代理失败之处

如果你的 AI 代理被目标站点阻止,那么所有这些节省令牌的技巧都是无用的😅(曾经看到过AI CAPTCHA 失败有多搞笑吗? 🤣)。


那么,为什么会发生这种情况?很简单!大多数网站都使用反抓取措施,可以轻松阻止自动浏览器。想要全面了解吗?请观看我们即将举行的网络研讨会:


如果您遵循了我们的高级网页抓取指南,您就会知道问题不在于浏览器自动化工具(为您的 AI 代理提供支持的库)。不,真正的罪魁祸首是浏览器本身。🤖


为了避免被阻止,您需要一个专为云自动化构建的浏览器。进入Scraping Browser ,该浏览器具有以下功能:

  • 像常规浏览器一样以头戴式模式运行,这使得反机器人系统更难检测到您。🔍
  • 轻松在云中扩展,节省您在基础设施上的时间和金钱。💰
  • 自动解决 CAPTCHA、处理浏览器指纹、自定义 cookie/标头并重试以确保一切顺利运行。⚡
  • 从最大的、最可靠的代理网络之一轮换 IP。🌍
  • 与 Playwright、Selenium 和 Puppeteer 等流行的自动化库无缝集成。🔧


了解有关 Bright Data 的 Scraping Browser 的更多信息,它是集成到您的 AI 代理中的完美工具

最后的想法

现在您知道了为什么 AI 代理使用 Markdown 进行数据处理。这是一个节省代币(和金钱)并加快 LLM 处理速度的简单技巧。


想要你的 AI 代理在不碰到障碍物的情况下运行吗?看看Bright Data 的 AI 工具套件!加入我们,让每个人都能访问互联网——即使通过自动 AI 代理浏览器也可以。🌐


下次见,继续自由地上网吧!🏄‍♂️