如何使用 Laravel 进行网络搜刮？- 👇Alucare

这网络搜刮 Laravel 结合了 PHP 框架和专业库的强大功能，可以 自动化数据提取.

这是一款用于收集、处理和整理在线信息的强大解决方案。让我们在本文中共同探索如何实现这一目标。 使用 Laravel 进行网页搜索.

Laravel 使用 PHP 作为引擎，提供有组织的结构和集成工具，使网络搜索更容易。Cristina for Alucare.fr

使用 Laravel 进行刮擦的先决条件

Laravel 是一个 PHP 框架 广泛用于开发现代网络应用程序。

得益于其丰富的生态系统，它为开发以下项目提供了理想的环境 使用 PHP 进行网络搜刮 有组织、可维护的方式。首先，必须.....：

🔥 掌握 PHP 和 Laravel 的基础知识。
🔥 了解 HTML 和 CSS 以锁定元素。
🔥 知道如何操作 Composer 安装软件包。

👉 必不可少的工具有

下降：PHP 参考库。它简化了数据查询和提取。.
傀儡匠/无头铬 无头浏览器。对于使用大量 JavaScript 的页面来说是必不可少的。
Laravel HTTP 客户端 ：允许您使用 Http::get() 来检索简单的内容。

使用 Laravel 创建第一个 scraper 的教程

按照本教程的步骤，用 Laravel 创建一个功能强大的 scraper。

⚠ 始终遵守网站的使用条款和条件，以及网站的使用条款和条件。 robots.txt 和当地法律。限制负载（速率限制），识别用户代理，不收集敏感数据。

步骤 1：安装和配置

创建一个新的 Laravel 项目，并添加 Goutte（Laravel 集成）。

# 1) 创建一个新的 Laravel 项目
compose create-project laravel/laravel scraper-demo
cd scraper-demo

# 2) 添加 Goutte（与 Laravel 集成）
composer require weidner/goutte

步骤 2：创建工艺订单

生成一条命令，其中包含您的刮擦逻辑：

php artisan make:command ScrapeData

文件在此处创建： app/Console/Commands/ScrapeData.php.

第 3 步：编写刮板代码

在生成的命令中，添加：

✅ 一个 HTTP 请求 来获取 HTML 内容。
✅德斯 CSS 选择器 来定位数据。
✅ 一个环来浏览项目并显示结果。

下面是一个例子 完整代码 用于抓取博客文章标题：

info("Scraping: {$url}")；

        // 1) HTTP 请求检索 HTML
        $crawler = Goutte::request('GET', $url)；

        // 2) 使用 CSS 选择器
        $nodes = $crawler->filter('h2 a')；

        // 3) 循环元素并显示
        $nodes->each(function (Crawler $node, $i) {
            $title = $node->text()；
            $link = $node->attr('href')；
            $this->line(($i+1) ."." .$title ." - " .$link)；
        });

        return self::SUCCESS；
    }
}

使用 Laravel 进行网络搜刮的最佳实践

制作使用 Laravel 有效地进行网页刮擦时，需要注意以下几点提示：

1. 任务管理与队列管理

抓取每个页面可能需要几秒钟。试想一下，如果你要抓取 1000 个页面，你的 Laravel 应用程序就会被阻塞很长一段时间，无法使用。解决方案：使用工作和 Laravel 尾巴.

一个工作这是一项您希望在后台执行的任务。.
A 机尾 (队列)是存放这些任务的地方，以便它们能逐步执行，而不会阻塞其他任务。.

下面是一个例子代码，将刮擦逻辑封装在一个 Job 中：

// app/Jobs/ScrapePageJob.php
<?php

namespace App\Jobs;

use Goutte\Client; // Ou Guzzle/Http, selon ta stack
use Illuminate\Bus\Queueable;
use Illuminate\Contracts\Queue\ShouldQueue;
use Illuminate\Foundation\Bus\Dispatchable;
use Illuminate\Queue\InteractsWithQueue;
use Illuminate\Queue\SerializesModels;

class ScrapePageJob implements ShouldQueue
{
    use Dispatchable, InteractsWithQueue, Queueable, SerializesModels;

    protected string $url;

    public function __construct(string $url)
    {
        $this->url = $url；
    }

    public function handle(): void
    {
        $client = new Client()；

        $crawler = $client-&gt;request('GET', $this-&gt;url)；

        // 简单示例：提取所有 <h1>
        $titles = $crawler-&gt;filter('h1')-&gt;each(function ($node) {
            return $node-&gt;text()；
        });

        // 持久性/日志/事件...
        foreach ($titles as $title) {
            \Log::info("[Scraping] {$this-&gt;url} - H1: {$title}")；
        }
    }
}


// app/Http/Controllers/ScraperController.php
onQueue('scraping'); // 如果需要专用队列
        }

        return response()->json(['status' => 'Scraping running in background 🚀'])；
    }
}

👉 如您所见，任务会被放入队列中。Laravel 提供了多种队列管理系统，其中最常用的是：

带有数据库的队列 工作以行的形式存储在 SQL 表中，然后由一个 worker.
使用Redis的队列 任务以超高速队列的形式存放在内存中，是处理大量任务的理想选择。

2.使用 Laravel 任务调度程序实现自动化

Laravel 集成了 任务调度程序 (调度程序) 允许’自动清除.

所以你可以 计划执行抓取任务 定时，例如每小时一次。

👉 以下是在中执行它的方法： app/Console/Kernel.php :

command('scraper:run')->hourly()；

    // 有用的示例 ：
    // $schedule->command('scraper:run')->everyFifteenMinutes()；
    // $schedule->command('scraper:run')->dailyAt('02:30')->timezone('Indian/Antananarivo')；
}

/**
 * 注册订单。
 */
protected function commands(): void
{
    $this->load(__DIR__ . '/Commands')；
}


}