JavaScript 中的 Web scraping：完整指南

这 用 JavaScript 进行刮削 是采集网络数据, 无论是静态内容还是动态内容，本指南都将为您详细说明。.

使用 JavaScript 进行网络搜刮的先决条件

在编码之前，您需要准备好环境。为此，您需要两个基本工具：

✅ Node.js ：这是一个 JavaScript 运行环境，, open-source 且支持多平台。它允许在浏览器外部运行JS代码。.
✅ npm (Node Package Manager) : 这是一个内置于 Node.js 的包管理器，便于快速安装库。.

对于图书馆来说，以下是最受欢迎的几种：

✅ 傀儡师 和编剧用于抓取动态网站。它们模拟真实的浏览器，像用户一样加载页面。
✅ 加油用于静态抓取。它尤其轻量、快速且易于使用。.

如何使用 JavaScript 进行网络搜刮？

下面我们就开始学习这个简短的教程。

步骤 1：安装和配置

下载 Node.js，然后进行安装。通过终端验证安装：

node -v
npm -v

在终端中创建一个 Node.js 项目。

mkdir my-scraping
cd my-scraping
npm init -y

这会创建一个带有 package.json 文件的 Node.js 项目。

安装必要的程序库

用于静态页面（Cheerio）

npm install axios cheerio

用于动态页面 (Puppeteer)

npm install puppeteer

步骤2：创建抓取脚本

使用Cheerio抓取静态页面

// 导入库
const axios = require('axios')；
const cheerio = require('cheerio')；

// 要废止的页面的 URL
const url = "https://exemple.com"；

// 主函数
async function scrapePage() {
  try {
    // 下载 HTML 内容
    const { data } = await axios.get(url)；

    // 使用 cheerio 加载 HTML
    const $ = cheerio.load(data)；

    // 示例：检索所有 h1 标题
    const titles = []；
    $("h1").each((i, elem) => {
      titles.push($(elem).text().trim())；
    });

    // 显示结果
    console.log("Titles found:", titles)；

  } catch (error) {
    console.log("Error while scraping:", error)；
  }
}

// 运行脚本
scrapePage()；

您可以替换 https://exemple.com 的URL，并修改选择器 $("h1") 以您感兴趣的内容为目标（例如 $("p"), .类, #id等等）。

使用Puppeteer抓取动态页面

// 导入 Puppeteer
const puppeteer = require("puppeteer")；

// 要清除的页面的 URL
const url = "https://exemple.com"；

async function scrapePage() {
  // 启动无图形界面（无头）浏览器
  const browser = await puppeteer.launch({ headless: true })；
  const page = await browser.newPage()；

  try {
    // 转到页面
    await page.goto(url, { waitUntil: "networkidle2" })；

    // 示例：从所有 h1 标题中提取文本
    const titles = await page.$$eval("h1", elements =>)
      elements.map(el => el.textContent.trim())
    );

    console.log("Titles found:", titles)；

  } catch (error) {
    console.error("Error while scraping:", error)；
  } finally {
    // 关闭浏览器
    await browser.close()；
  }
}

// 运行脚本
scrapePage()；

第 3 阶段：管理提取的数据

恢复的数据可以 CSV 格式保存为 Excel，或以 JSON 格式存储，以便整合到数据库中。

// 保存为 JSON 格式
    fs.writeFileSync("results.json", JSON.stringify(results, null, 2), "utf-8")；
    console.log("✅ Data saved in resultats.json")；

    // 保存为 CSV
    const parser = new Parser()；
    const csv = parser.parse(results)；
    fs.writeFileSync("results.csv", csv, "utf-8")；
    console.log("✅ 数据保存在 resultats.csv")；

  } catch (error) {
    console.error("❌ 扫描时出错：", error)；
  }
}

scrapeAndSave()；