Laravelでウェブスクレイピングをするには？- 👇Alucare

the ウェブスクレイピング Laravelは、PHPフレームワークのパワーと特別なライブラリを組み合わせて、次のことを実現します。 データ抽出の自動化.

これは、オンラインで情報を収集、処理、整理するための堅牢なソリューションです。この記事で、その方法について一緒に見ていきましょう。 Laravelでウェブスクレイピング.

LaravelはPHPをエンジンとして使用し、ウェブスクレイピングを容易にするための組織的な構造と統合されたツールを提供する。 — LaravelはPHPをエンジンとして使用し、ウェブスクレイピングを容易にするための整理された構造と統合されたツールを提供します。Alucare.frのクリスティーナ

Laravelでスクレイピングするための前提条件

ララベルは PHPフレームワーク 最新のウェブ・アプリケーションの開発に広く使われている。

その豊かな生態系のおかげで、開発には理想的な環境を提供している。 PHPによるウェブスクレイピング を、組織的かつ維持可能な方法で行うことである。まず最初に、：

PHPとLaravelの基礎をマスターする。
🔥 HTMLとCSSを理解し、要素をターゲットにする。
🔥 Composerを操作してパッケージをインストールする方法を知る。

必須ツールは以下の通り：

ドロップ : PHPの標準ライブラリ。クエリとデータ抽出を簡素化します。.
人形遣い／ヘッドレス・クローム ヘッドレス・ブラウザ。JavaScriptを多用するページのスクレイピングに欠かせない。
Laravel HTTPクライアント を使ったクエリーを行うことができます。 Http::get() シンプルなコンテンツを取得する。

Laravelで最初のスクレーパーを作成するためのチュートリアル

このステップバイステップのチュートリアルに従って、Laravelで機能的なスクレーパーを作成しましょう。

⚠ サイトの利用規約、利用者規約、その他の利用規約は必ず遵守してください。 robots.txt および地域の法律に従ってください。負荷を制限し（レートリミット）、User-Agentを特定し、機密データを収集しない。

ステップ1：インストールと設定

新しいLaravelプロジェクトを作成し、Goutte（Laravelインテグレーション）を追加します。

# 1) 新しいLaravelプロジェクトを作成する
create-project laravel/laravel scraper-demo を作成します。
cd scraper-demo

# 2) Goutte（Laravelインテグレーション）を追加します。
composer require weidner/goutte

ステップ2：クラフトオーダーの作成

スクレイピングロジックを含むコマンドを生成する：

php artisan make:command ScrapeData

ファイルはここで作成される： app/コンソール/コマンド/ScrapeData.php.

ステップ3：スクレイパーコードを書く

生成されたコマンドに：

✅ 一つ HTTPリクエスト でHTMLコンテンツを取得する。
✅ Des CSSセレクタ をターゲットにする。
✅ 一つ ループ で項目をブラウズし、結果を表示します。

以下はその例である。 完全なコード ブログ記事のタイトルをスクレイピングするには：

info("Scraping: {$url}")；

        // 1) HTMLを取得するためのHTTPリクエスト
        $crawler = Goutte::request('GET', $url)；

        // 2) CSSセレクタの使用
        $nodes = $crawler->filter('h2 a')；

        // 3) 要素をループして表示する
        $nodes->each(function (クローラー $node, $i) {)
            $title = $node->text()；
            $link = $node->attr('href')；
            $this->line(($i+1) ."." .$title ." - " .$link)；
        });

        return self::SUCCESS；
    }
}

Laravelによるウェブスクレイピングのベストプラクティス

を作る Laravelで効果的にウェブスクレイピングを行うには、以下のヒントを覚えておいてください：

1. タスク管理とキューイング

スクレイピングには1ページあたり数秒かかります。もし1000ページをスクレイピングしなければならないとしたら、あなたのLaravelアプリケーションはブロックされ、長い間使用できなくなるでしょう。解決策は求人そしてその ララベルのテール.

A 仕事だ、 これはバックグラウンドで実行したいタスクです。.
あ テール (キュー)は、これらのジョブを順番に実行するために一時的に格納する場所であり、他の処理を妨げることなく順次処理されます。.

以下に例を挙げる。コードを使用して、スクレイピングロジックをジョブ：

// app/Jobs/ScrapePageJob.php
<?php

namespace App\Jobs;

use Goutte\Client; // Ou Guzzle/Http, selon ta stack
use Illuminate\Bus\Queueable;
use Illuminate\Contracts\Queue\ShouldQueue;
use Illuminate\Foundation\Bus\Dispatchable;
use Illuminate\Queue\InteractsWithQueue;
use Illuminate\Queue\SerializesModels;

class ScrapePageJob implements ShouldQueue
{
    use Dispatchable, InteractsWithQueue, Queueable, SerializesModels;

    protected string $url;

    public function __construct(string $url)
    {
        $this->url = $url；
    }

    public function handle(): void
    {
        $client = new Client()；

        $crawler = $client-&gt;request('GET', $this-&gt;url)；

        // 単純な例: すべてを抽出する <h1>
        $titles = $crawler-&gt;filter('h1')-&gt;each(function ($node) {)
            return $node-&gt;text()；
        });

        // 永続化 / ログ / イベント...
        foreach ($titles as $title) { // 永続性/ログ/イベント...
            \Log::info("[スクレイピング] {$this-&gt;url} - H1: {$title}")；
        }
    }
}


// app/Http/Controllers/ScraperController.php
onQueue('scraping'); // 専用キューが必要な場合
        }

        return response()->json(['status' => 'Scraping running in background 🚀'])；
    }
}

👉 ご覧のように、ジョブはキュー（待機列）に入ります。Laravel はこのキューを管理するためのいくつかのシステムを提供しています。最もよく使用されるのは以下の通りです：

データベースとのキュー ジョブはSQLテーブルに行として格納され、その後 worker.
Redisを使用したキュー ジョブはメモリ上の超高速キューに配置され、大量のタスク処理に最適です。

2.Laravelタスクスケジューラによる自動化

Laravelは タスクスケジューラ (スケジューラ)により’スクレイピングの自動化.

だから、あなたは スクレイピングの実行を計画する 例えば1時間ごとなど、一定の間隔で。

👉 実行方法は以下の通りです。 app/コンソール/Kernel.php :

command('scraper:run')->hourly()；

    // 便利な例 ：
    // $schedule->command('scraper:run')->everyFifteenMinutes()；
    // $schedule->command('scraper:run')->dailyAt('02:30')->timezone('Indian/Antananarivo')；
}

/**
 * オーダーの登録。
 */
protected function commands(): void
{
    $this->load(__DIR__ . '/Commands')；
}


}