如何使用 BeautifulSoup 在 Python 上进行网络搜刮？- 👇Alucare

您是否想潜入...... 网络搜刮但又不会被复杂的代码所困扰？

和 Python 和图书馆 美丽汤，你可以轻松地 提取和整理数据 仅用几句话就能概括一个网站。

使用 BeautifulSoup 在 Python 上进行网络搜刮。Cristina for Alucare.fr

使用 BeautifulSoup 在 Python 上进行刮擦的先决条件

✅ 在开始之前，掌握以下几点至关重要： 编程基础.这将让您更好地了解代码是如何工作的。不必成为专家，但懂得阅读和执行Python脚本会对你大有帮助。

接下来，您首先需要做的是使在 Python 上进行刮擦与 BeautifulSoup ：

✔ 安装 Python 以及一个开发环境。
✔ 安装 核心, 这款工具可轻松添加 Python 库。
✔ 安装 美丽汤 使用命令：

pip install beautifulsoup4

✔ 安装要求命令来检索网页：

pip install requests

如何使用 Python 和 BeautifulSoup 进行网络搜索？

请按照我们的教程进行简单的网络搜索项目。

图片展示了如何使用 BeautifulSoup 在 Python 上进行网络搜索。Cristina for Alucare.fr

项目获取页面标题及其包含的所有链接。

步骤 1：通过请求检索页面内容

开展 HTTP GET 请求 到 URL，使用要求.

使用请求发送 HTTP 请求时，服务器总是会返回一个状态代码。这些代码表示请求是否成功。

200 成功。
301 / 302 重定向。
404 未找到页面。
500 内部服务器错误。

和要求您可以通过属性来验证查询结果。 .status_code.下面是一个向以下设备发送请求的代码示例 bonjour.com会检查状态代码，并在一切正常的情况下显示 HTML 内容摘要：

进口请求

# 目标 URL
url = "https://bonjour.com"

# 发送 GET 请求
response = requests.get(url)

# 检查状态代码
if response.status_code == 200：
    print("Success: the page has been retrieved!")
    html = response.text # 页面的 HTML 内容
    print("HTML 内容摘要：")
    print(html[:500]) # 只显示前 500 个字符
else：
    print(f "错误：状态代码 {response.status_code}")

步骤 2：使用 BeautifulSoup 分析 HTML 代码

当您使用要求 (response.text)，就会得到一个包含页面所有 HTML 代码的字符串。要轻松操作这些 HTML 代码，我们可以使用 美丽汤 创建对象 美丽汤.

将原始 HTML 传递给 BeautifulSoup 时，需要指定一个 解析器 (例如： "html.解析器这使得BeautifulSoup能够正确解析HTML并避免警告。

从 bs4 导入 BeautifulSoup
导入请求

url = "https://bonjour.com"
response = requests.get(url)
html = response.text

# 建议指定解析器
soup = BeautifulSoup(html, "html.parser")

步骤 3：查找和提取元素

将 HTML 转换为 美丽汤您就可以开始搜索和检索您感兴趣的数据（HTML 标记）。

使用 查找() 和 find_all()

# 检索标题 <h1>
h1 = soup.find("h1")
print(h1.get_text())

# 读取所有链接 <a>
liens = soup.find_all("a")
for lien in liens：
    print(lien.get_text(), lien.get("href"))

按属性定位元素

您可以通过以下属性缩小搜索范围 班级, ID 或任何其他 HTML 属性。

⚠️ 评论在 Python 中，我们写道 类别_ 代替 班级 以避免与保留字 班级.

# 检索具有特定 id 的 div
container = soup.find("div", id="main")

# 检索具有特定类的所有链接
nav_links = soup.find_all("a", class_="nav-link")

使用 CSS 选择器 选择()

要进行更精确的搜索，请使用 选择() 使用 CSS 选择器。

# 文章标题中的所有链接
article_links = soup.select("article h2 a")

# 全部 <a> 其 href 属性以 "http "开头。
links_http = soup.select('a[href^="http"]')

这 CSS 选择器 如果想精确定位页面中的某些部分而不必手动遍历整个HTML代码，这些方法非常强大。

如何使用BeautifulSoup从HTML表格中提取数据？

到目前为止，我们已经了解了如何从网页中提取标题、链接或文本。

⚠ 但实际应用场景往往更为复杂： 结构化数据提取 例如表格或列表的处理、分页管理，以及解决与网页抓取相关的常见错误。这正是我们将要共同探讨的内容。

提取表格和列表

网站通常以 HTML 表格 (<table>, <tr>, <th>, <td>)或列表 (

）。要将这些结构转化为可用数据，您需要学习如何逐行或逐个元素地查看它们。

无论何时 提取 HTML 表格原理很简单：
- ✅ 恢复标头 (<th>) 来标识列标题。
- ✅ 浏览每一行 (<tr>) 并搜索单元格 (<td>)，其中包含真实数据。
- ✅ 在列表或字典中存储信息。
对于一个 HTML 列表 (