什么是使用 LLM Agent 进行网络搜刮？- 👇Alucare

随着LLM代理的兴起， 网络搜刮 变得更智能、更自主。这种演变改变了人们访问和使用在线数据的方式。

只需用自然语言向 LLM 发出明确的指令，它就完全有可能进行网络搜索。 — 只要用自然语言给它明确的指令，用 LLM 进行网络搜索是完全可能的。Cristina for Alucare.fr

什么是使用 LLM Agent 进行网络搜刮？

📌 作为提醒，"......"。网络搜刮就是 自动提取信息 来自网站。

这类收集工作通常采用基于精确规则的传统方法。这些方法包括 选择器 例如 XPath 或 CSS，它们准确地指出了在页面上查找信息的位置。

🔥 随着 法学硕士代理网络刮削正在经历一场真正的范式转变。

什么是LLM代理？

这是一个结合了 高级语言模型 (LLM) 来理解人类语言。

👉 因此，与其像使用XPath或CSS那样仅提供技术指令，您不妨直接告诉智能体您想要什么。 正常语言他负责寻找并 收集数据 给你

LLM代理在网页抓取中的作用

LLM（大型语言模型）代理是一种使用高级语言模型来解释人类指令并自动从网络中提取数据的程序。 — LLM（大型语言模型）代理是一种利用先进语言模型来解读人类指令并自动从网络中提取数据的程序。©Christina 供 Alucare.fr 使用

LLM代理在网页抓取中扮演多种角色：

理解指令 用户的自然语言表达。
识别和导航 在各种网页结构中自动生成。
提取、转换和整理数据 自主。
适应网站的变化 无需手动修改规则。

以下是网络爬虫中使用LLM代理的具体示例：

✅ 提取价格和产品特征。
✅ 监测客户评论。
✅ 内容或新闻的收集。
✅ 自动收集金融或股票市场数据。

LLM 代理如何在网络刮擦中工作？

LLM Agent 按照生命周期从网络中提取数据。

目标（提示）

用户用简单语言定义任务。例如：“查找该商品的价格和描述”。

规划（法学硕士）

代理将任务分解为具体操作。例如，他决定访问页面、点击标签页或展开列表。

执行（行动）

代理在网站上浏览，点击按钮，滚动页面并与必要元素互动以达成目标。

提取（LLM）

该代理识别并提取相关数据。

检查和循环

操作员核查结果，并可重复该过程以优化提取或修正错误。

通过本教程逐步了解如何使用 LLM Agent 进行网络搜索。

第一步：环境准备

安装必要的程序库（Python、框架等）。

# Linux / macOS
python3 -m venv .venv
source .venv/bin/activate

# Windows（PowerShell）
python -m venv .venv
.venv\Scripts\Activate.ps1

# 安装库
pip install requests beautifulsoup4 httpx python-dotenv

步骤 2：选择目标

选择要抓取的网页并确定重要信息。

# 要扫描的目标 URL 示例
url = "https://example.org/produits"

# 要提取的信息 ：
# - 页面标题
# - 主要产品名称
# - 显示的价格
# - 与其他产品的链接
<html>
  <head>
    <title>商店示例 - 产品</title>
  </head>
  <body>
    <h1>我们的产品</h1>
    <div class="product">
      <h2>产品 A</h2>
      <span class="price">29.99€</span>
    </div>
    <a href="/zh/produit-b/">参见产品 B</a>
  </body>
</html>

第 3 阶段：拟定提示

为代理人撰写清晰明确的指示。

系统：
你是一名法学硕士，专门从事网页搜索。
您的工作是从网页中提取数据并进行分析和整理。

用户：
这是解析后的 HTML 内容：
<h1>我们的产品</h1>
产品 A - 29.99 欧元
产品 B - 45.00 欧元

任务 ：
1.总结主要内容。
2.给出包含 {产品名称、价格} 的 JSON 格式。
3.推荐 2 个相关的 CSS 选择器。

步骤 4：运行脚本

运行程序并观察结果。

下面是一个使用 Python 的简单代码示例，其中使用了 Requests、BeautifulSoup 和 LLM API：

导入请求
导入 json

# 模拟调度和执行操作的 LLM 代理函数
def execute_llm_agent(prompt, url_target)：
    # 在这里，代理使用提示来 "决定 "要采取的行动。
    print(f "LLM 代理：我正在分析 {url_target} 页面以查找数据。我的目标：'{提示}'")
    
    # 1.分析和规划（模拟）
    print("LLM agent : I plan my strategy...")
    
    # 代理可以生成选择器、导航指令等。
    # 示例：代理决定使用 "价格 "类搜索""和""项目。
    
    # 2 执行和提取
    response = requests.get(url_target)
    # 代理 "理解" HTML 结构并提取相关数据。
    # 在真正的代理中，这一部分将由 LLM 驱动。
    提取的数据 = {
        "page_title": "商店示例 - 产品", # 动态提取
        "product_A"："产品 A"，# 动态提取
        "price_A": "29.99€" # 动态提取
    }
    
    # 3.验证和组织
    print("LLM agent: I've found the data. I'm organising it in JSON format.")
    
    # 代理利用其推理能力对最终结果进行格式化。
    resultat_json = json.dumps({
        "产品": [
            {
                "product_name": extracted_data["product_A"]、
                "价格"：extracted_data["price_A"]
            }
        ]
    }, indent=2)
    
    返回 result_json

# 根据用户目标启动代理
prompt_user = "查找页面上的产品名称和价格"。
url_of_site = "https://example.com"

extract_data = execute_llm_agent(prompt_user, url_from_site)
print("Agent's final result:")
print(extracted_data)

网络搜索工具与 LLM 代理的比较

要充分利用 LLM 代理进行网络搜索，熟悉不同的可用工具及其具体功能非常重要。

🌐 工具/框架	LLM 方法	✅ 亮点	❌ 弱点
亮数据	集成LLM的网络数据与工具平台	稳健的基础设施、完整的解决方案、高弹性	大量使用时成本可能很高，对初学者来说很复杂
Apify + 法学硕士	将 LLM 纳入现有框架	功能强大，管理基础设施	需要更多技术知识
ScrapeGraphAI	基于图表，高度可视化	易于使用，无需编码	在执行复杂任务时可能不够灵活
自制解决方案	直接使用 LLM 应用程序接口	最大灵活性，全面控制	成本高且复杂，需要编码