Como é que se faz web scraping com Laravel?

Índice :

a raspagem da web com Laravel combina o poder da estrutura PHP e bibliotecas especializadas para automatizar a extração de dados.

É uma solução robusta para recolher, processar e organizar informações online. Vamos descobrir juntos neste artigo como fazer isso. recolha de dados na Web com Laravel.

O Laravel utiliza o PHP como motor, oferecendo uma estrutura organizada e ferramentas integradas para facilitar a recolha de dados da Web. — O Laravel utiliza o PHP como motor, oferecendo uma estrutura organizada e ferramentas integradas para facilitar a recolha de dados na Web. Cristina para Alucare.fr

Pré-requisitos para o scraping com Laravel

Laravel é um Estrutura PHP amplamente utilizado para desenvolver aplicações Web modernas.

Graças ao seu rico ecossistema, oferece um ambiente ideal para desenvolver recolha de dados da web com PHP de uma forma organizada e sustentável. Para começar, é importante :

Dominar os conceitos básicos de PHP e Laravel.
Compreensão de HTML e CSS para direcionar elementos.
🔥 Saber como manipular o Composer para instalar pacotes.

👉 As ferramentas essenciais são:

Gota : a biblioteca PHP de referência. Simplifica as consultas e a extração de dados.
Marionetista/Cromo sem cabeça Um navegador sem cabeça. Essencial para raspar páginas que usam muito JavaScript.
Cliente HTTP Laravel permite-lhe efetuar consultas com Http::get() para obter conteúdos simples.

Tutorial para criar o seu primeiro scraper com Laravel

Siga este tutorial passo a passo para criar um scraper funcional com Laravel.

Respeitar sempre os termos e condições de utilização dos sítios, as robots.txt e a legislação local. Limitar a carga (rate-limit), identificar um User-Agent e não recolher dados sensíveis.

Passo 1: Instalação e configuração

Crie um novo projeto Laravel e adicione Goutte (integração Laravel).

# 1) Criar um novo projeto Laravel
compose create-project laravel/laravel scraper-demo
cd scraper-demo

# 2) Adicionar Goutte (integração Laravel)
composer require weidner/goutte

Passo 2: Criar uma encomenda de artesanato

Gerar um comando que contenha a sua lógica de raspagem:

php artisan make:command ScrapeData

O ficheiro é criado aqui : app/Console/Commands/ScrapeData.php.

Passo 3: Escrever o código do raspador

No comando gerado, adicione :

✅ Um Pedido HTTP para obter o conteúdo HTML.
✅ Des Seletores CSS para direcionar os dados.
✅ Um laço para procurar os itens e apresentar os resultados.

Eis um exemplo de código completo para extrair os títulos dos artigos de um blog:

info("Raspagem: {$url}");

        // 1) Pedido HTTP para obter o HTML
        $crawler = Goutte::request('GET', $url);

        // 2) Utilização de selectores CSS
        $nodes = $crawler->filter('h2 a');

        // 3) Fazer um loop sobre os elementos e mostrar
        $nodes->each(function (Crawler $node, $i) {
            $title = $node->text();
            $link = $node->attr('href');
            $this->line(($i+1) . ". " . $ítulo . " - " . $link);
        });

        return self::SUCCESS;
    }
}

Melhores práticas para a recolha de dados da Web com Laravel

Para fazer para fazer um web scraping eficaz com o Laravel, aqui estão algumas dicas a ter em conta:

1. Gestão de tarefas e enfileiramento

A recolha de dados pode demorar vários segundos por página. Imagine se tivesse de fazer scraping de 1000 páginas, a sua aplicação Laravel ficaria bloqueada e inutilizável durante muito tempo. A solução: o empregos e a Caudas de Laravel.

UMA trabalho, é uma tarefa que pretende executar em segundo plano.
A cauda (fila de espera) é o local onde esses trabalhos são armazenados para serem executados gradualmente, sem bloquear o resto.

👉 Eis um exemplo código para encapsular a lógica de raspagem numa tarefa :

// app/Jobs/ScrapePageJob.php
<?php

namespace App\Jobs;

use Goutte\Client; // Ou Guzzle/Http, selon ta stack
use Illuminate\Bus\Queueable;
use Illuminate\Contracts\Queue\ShouldQueue;
use Illuminate\Foundation\Bus\Dispatchable;
use Illuminate\Queue\InteractsWithQueue;
use Illuminate\Queue\SerializesModels;

class ScrapePageJob implements ShouldQueue
{
    use Dispatchable, InteractsWithQueue, Queueable, SerializesModels;

    protected string $url;

    public function __construct(string $url)
    {
        $this->url = $url;
    }

    função pública handle(): void
    {
        $client = new Client();

        $crawler = $client-&gt;request('GET', $this-&gt;url);

        // Exemplo simples: extrair tudo <h1>
        $titles = $crawler-&gt;filter('h1')-&gt;each(function ($node) {
            return $node-&gt;text();
        });

        // Persistência / registos / eventos...
        foreach ($titles as $title) {
            \Log::info("[Scraping] {$this-&gt;url} - H1: {$title}");
        }
    }
}


// app/Http/Controllers/ScraperController.php
onQueue('scraping'); // se quiser uma fila dedicada
        }

        return response()->json(['status' => 'Scraping running in background 🚀']);
    }
}

👉 Como você viu, as tarefas vão para uma fila (file d'attente). O Laravel oferece vários sistemas para gerenciar essa fila. Os mais usados são:

A fila de espera com a base de dados são armazenadas como linhas numa tabela SQL e depois executadas uma a uma por um worker.
A fila de espera com Redis As tarefas são colocadas na memória numa fila ultra-rápida, ideal para processar um grande volume de tarefas.

2. Automatização com o agendador de tarefas do Laravel

O Laravel integra um programador de tarefas (agendador) que permite’automatizar a raspagem.

Assim, pode planejar a execução de um comando de scraping em intervalos regulares, por exemplo, de hora a hora.

👉 Veja como executá-lo em app/Console/Kernel.php :

command('scraper:run')->hourly();

    // Exemplos úteis :
    // $schedule->command('scraper:run')->everyFifteenMinutes();
    // $schedule->command('scraper:run')->dailyAt('02:30')->timezone('Indian/Antananarivo');
}

/**
 * Registo de encomendas.
 */
protected function commands(): void
{
    $this->load(__DIR__ . '/Commands');
}


}

3. Contornar a proteção anti-raspagem

Muitos sites implementam proteções contra scrapers. Para evitar ser bloqueado, é melhor:

✅ Alterar o User-Agent simular um browser real.
✅ Gestão de prazos inserir pausas (sleep, throttle) entre os pedidos, para não sobrecarregar o servidor de destino.
✅ Utilizar proxies Distribuir os pedidos por vários endereços IP.

Quais são as alternativas ao web scraping com Laravel?

Embora o Laravel seja prático para integrar o scraping numa aplicação PHP, existem outras soluções frequentemente mais especializadas.

a recolha de dados da Web com Python

Python é a linguagem mais utilizada para scraping. Possui bibliotecas poderosas como o Scrapy e o BeautifulSoup.

Ferramentas sem código

Cada vez mais ferramentas permitem fazer scraping sem codificação Onde com a ajuda da IA. Citamos : Dados brilhantes, Octoparse, Apify, etc

Soluções como a Bright Data permitem-lhe recolher dados rapidamente sem codificação. — Soluções como a Bright Data permitem recolher dados rapidamente sem codificação. Cristina para Alucare.fr

Perguntas frequentes

Como é que eu faço scraping de um site protegido por login com Laravel?

Este é um dos desafios mais comuns no web scraping. Para conseguir isso com o Laravel, é necessário:

Simular a ligação com um pedido POST, enviando o endereço de correio eletrónico e a palavra-passe.
Gerir os cookies ou a sessão para aceder a páginas protegidas.

Como é que se gere a paginação quando se faz web scraping com Laravel?

Para gerir a navegação entre páginas com o Laravel, deve:

Raspar a primeira página.
Detectar o link “página seguinte” com um seletor CSS.
Fazer um loop em cada ligação até ao final da paginação.

Como é que exporto dados extraídos (para CSV, Excel ou JSON)?

Com o Laravel, é possível usar o :

fputcsv() para CSV.
a livraria MaatwebsiteExcel para Excel.
A função nativa json_encode() para gerar um ficheiro JSON.

Como gerir os erros e as excepções durante a recolha de dados?

Para lidar com pedidos falhados com o Laravel, é necessário :

Encapsulamento de pedidos em um try/catch.
Verificar os códigos de estado HTTP (404, 500, etc.). Em caso de erro, registar ou programar uma nova tentativa.

A raspagem da Web é legal ou ilegal?

o legalidade da recolha de dados na Web é um assunto complexo. Tudo depende do site visado e da utilização dos dados.

📌 O raspagem da web em França é frequentemente discutido no contexto dos direitos autorais e da proteção de bases de dados.

💬 Em suma, o recolha de dados na Web com Laravel é poderoso e flexível, mas requer boas práticas para se manter eficaz e legal. Diga-nos o que pensa nos comentários.