使用 Python 从 IMDb 抓取电影评分：深入解析与实战指南

2026-02-08 21:23:08 0条评论 3次阅读 0人点赞

在数据驱动的时代，互联网上充满了宝贵的信息。对于电影爱好者或数据分析师来说，IMDb（互联网电影资料库）无疑是世界上最权威的电影数据库之一。你是否曾经想过如何将那些海量的电影评分、排名和详细信息自动保存到你的本地电脑中，以便进行深入分析或构建自己的推荐系统？

在这篇文章中，我们将一起踏上一段有趣的技术旅程，探索如何使用 Python 这种功能强大的编程语言来编写网络爬虫，从 IMDb 的 "Top 250" 榜单中提取数据。我们不仅会学习如何抓取数据，还会深入探讨背后的工作原理、优化策略以及如何处理实际开发中可能遇到的棘手问题。让我们开始吧！

为什么要编写网络爬虫？

当我们需要从网站上获取信息时，通常有两个选择：手动复制粘贴，或者编写自动化脚本。对于几百条数据，手动操作或许可行；但对于成千上万条不断变化的数据，手动操作不仅效率低下，而且极易出错。网络爬虫应运而生，它能够模拟浏览器向服务器发送请求，获取网页内容，并从中提取出我们需要的有价值数据。

我们将重点抓取 IMDb Top 250 页面。这不仅是一个经典的练习项目，获取的数据也具有极高的分析价值。

核心技术栈：我们需要哪些工具？

在开始动手之前，让我们先熟悉一下我们将要用到的 "武器库"。为了高效、稳健地完成抓取任务，我们需要安装以下 Python 库。你可以使用 pip install requests beautifulsoup4 pandas html5lib 来一次性安装它们。

#### 1. Requests：你的 HTTP 专属快递员

如果说网络爬虫是一场数据搬运工作，那么 Requests 库就是你最得力的 "快递员"。它允许我们向目标网站发送 HTTP 请求（就像你在浏览器地址栏输入网址并回车一样）。无论目标是 REST API 还是普通的网页，Requests 都能优雅地处理。它会处理复杂的连接细节，并返回一个包含服务器响应内容的对象。相比于 Python 内置的 urllib，Requests 更加简洁直观，是进行网络请求的首选。

#### 2. BeautifulSoup：HTML 解析的瑞士军刀

当我们通过 Requests 获取到网页的源代码（通常是一大串包含标签的 HTML 文本）时，直接阅读它简直是一场灾难。这时，BeautifulSoup (bs4) 就派上用场了。它能够将杂乱的 HTML 解析成 Python 对象树，让我们可以轻松地通过标签名、类名或 ID 来定位数据。这就好比把一堆混乱的乐高积木按颜色和形状分类整理好，随取随用。

#### 3. html5lib：最宽容的解析器

BeautifulSoup 需要一个 "解析器" 来理解 HTML 结构。虽然 Python 内置的 html.parser 速度很快，但 html5lib 是一个纯 Python 编写的解析器，它的最大特点是非常 "宽容"。即便网站的 HTML 代码写得不符合规范（例如标签未闭合），html5lib 也能像浏览器一样尝试修复它并正确解析，从而提高爬虫的稳定性。

#### 4. Pandas：数据分析师的掌上明珠

当我们从网页中提取出数据后，它通常是以列表或字典的形式存在的。Pandas 是 Python 中最强大的数据处理库。它可以将这些原始数据瞬间转化为结构化的 DataFrame（类似于 Excel 表格），并支持将其轻松导出为 CSV、Excel 或 JSON 格式。这为我们后续的数据清洗和可视化打下了坚实基础。

实战演练：分步实现 IMDb 抓取

现在，让我们卷起袖子，开始编写代码。我们将整个过程拆分为若干个小步骤，确保你不仅知道 "怎么写"，还明白 "为什么这么写"。

#### 步骤 1：准备环境与导入模块

首先，我们需要告诉 Python 我们打算使用哪些工具。

# 导入 requests 用于发送网络请求
import requests
# 导入 BeautifulSoup 用于解析 HTML 文档
from bs4 import BeautifulSoup
# 导入 pandas 用于处理和保存数据
import pandas as pd

#### 步骤 2：发送请求并获取页面内容

接下来，我们需要获取网页的 "骨架"。我们将目标 URL 设定为 IMDb 的 Top 250 页面。

# 定义目标 URL
url = ‘https://www.imdb.com/chart/top/‘

# 发送 GET 请求获取网页内容
# requests.get 会返回一个 Response 对象
response = requests.get(url)

# 检查请求是否成功 (状态码 200 表示成功)
if response.status_code == 200:
    # 使用 BeautifulSoup 解析响应文本，指定 html.parser 作为解析器
    soup = BeautifulSoup(response.text, "html.parser")
    print("成功获取页面内容！")
else:
    print(f"请求失败，状态码: {response.status_code}")

技术提示： 为什么我们要检查 status_code？在网络环境中，服务器可能会拒绝请求（例如检测到你是爬虫），或者链接失效。良好的编程习惯是始终先检查连接状态，避免在错误的内容上进行解析，导致程序崩溃。

#### 步骤 3：分析网页结构并定位数据

这是最关键的一步。我们需要打开浏览器（按 F12 进入开发者工具），检查 HTML 结构，找到电影数据藏在哪里。

经过分析，我们发现每一部电影都被包裹在一个 INLINECODE36085d6e 标签中，且类名为 INLINECODE76b35ce7。我们可以使用 CSS 选择器来一次性选中所有这些元素。

# 使用 select 方法查找所有符合条件的电影条目
# select 返回的是一个列表，包含所有匹配的标签元素
movies = soup.select("li.ipc-metadata-list-summary-item")

# 打印找到的电影数量，确认抓取范围
print(f"共找到 {len(movies)} 部电影待处理。")

#### 步骤 4：提取详细字段（标题、年份、评分）

现在，我们有了电影列表的容器，但我们需要钻进去，提取具体的文本信息。让我们通过循环来处理每一部电影。

# 创建一个空列表，用于存储清洗后的数据
movie_data = []

# 遍历每一个电影块
for movie in movies:
    try:
        # 提取标题
        # select_one 只返回找到的第一个匹配项
        title_tag = movie.select_one("h3.ipc-title__text")
        # 使用 .text 获取标签内的文本，.strip() 去除首尾的空白字符
        title = title_tag.text.strip() if title_tag else "无标题"
        
        # 提取年份
        # 年份通常位于特定的 span 标签中
        year_tag = movie.select_one("span.cli-title-metadata-item")
        year = year_tag.text.strip() if year_tag else "未知年份"
        
        # 提取评分
        # 评分信息比较特殊，它可能包含评分值和投票数
        rating_tag = movie.select_one("span.ipc-rating-star--rating")
        rating = rating_tag.text.strip() if rating_tag else "N/A"
        
        # 将提取的数据封装成字典
        movie_info = {
            "Title": title,
            "Year": year,
            "Rating": rating
        }
        
        # 添加到总列表中
        movie_data.append(movie_info)
        
    except AttributeError as e:
        # 错误处理：如果某个标签不存在导致报错，捕获异常并继续
        print(f"解析某部电影时出错: {e}")
        continue

代码深度解析： 你可能注意到了代码中使用了 INLINECODE41811c70 的三元表达式。这是一种防御性编程。网页结构可能会变化，或者某些电影可能缺少某些字段（如没有年份信息）。如果直接调用 INLINECODE7575701e 而不检查标签是否存在，程序会抛出 AttributeError 并中断。这种写法确保了程序的健壮性。

#### 步骤 5：清洗与显示数据

数据提取完成后，让我们先在终端预览一下结果，确保一切正常。

# 格式化输出前 5 部电影的信息
print("
--- 抓取结果预览 ---")
for idx, movie in enumerate(movie_data[:5], 1):
    # f-string 是 Python 3.6+ 推荐的字符串格式化方式，既易读又高效
    print(f"{idx}. {movie[‘Title‘]} ({movie[‘Year‘]}) - 评分: {movie[‘Rating‘]}")

#### 步骤 6：持久化存储（保存为 CSV）

最后，我们将数据保存到 CSV 文件中，以便永久保存或在 Excel 中打开查看。

# 将字典列表转换为 Pandas DataFrame
df = pd.DataFrame(movie_data)

# 将 DataFrame 写入 CSV 文件
# index=False 表示不保存行索引（0, 1, 2...）
df.to_csv("imdb_top_250_movies.csv", index=False, encoding=‘utf-8-sig‘)

print("
数据已成功保存到 ‘imdb_top_250_movies.csv‘ 文件！")

完整代码实现

为了方便你复制和测试，以下是整合了错误处理和注释的完整脚本。

from bs4 import BeautifulSoup
import requests
import pandas as pd
import time

def scrape_imdb_top_250():
    """
    抓取 IMDb Top 250 电影数据的完整函数
    """
    print("正在尝试连接 IMDb...")
    
    # 1. 设置目标 URL
    url = ‘https://www.imdb.com/chart/top/‘
    
    try:
        # 2. 发送 HTTP 请求
        # 添加 headers 模拟真实浏览器访问，防止被初步拦截
        headers = {
            ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36‘
        }
        response = requests.get(url, headers=headers)
        response.raise_for_status() # 如果状态码不是 200，主动抛出异常
        
        # 3. 解析 HTML 内容
        soup = BeautifulSoup(response.text, "html.parser")
        movies = soup.select("li.ipc-metadata-list-summary-item")
        
        if not movies:
            print("警告：未找到任何电影条目，可能是网页结构已变化。")
            return

        movie_data = []
        
        # 4. 循环提取数据
        for movie in movies:
            # 这里使用了更安全的链式调用和异常捕获
            title = "N/A"
            year = "N/A"
            rating = "N/A"
            
            try:
                # IMDb 有时候会在标题里加上排名（如 "1. The Shawshank..."），我们可以清洗一下
                raw_title = movie.select_one("h3.ipc-title__text")
                if raw_title:
                    title = raw_title.text.strip()
                    # 简单的字符串处理：如果包含数字点和空格，去除它
                    if "." in title and title[1] == ".":
                        title = title.split(".", 1)[1].strip()

                raw_year = movie.select_one("span.cli-title-metadata-item")
                if raw_year:
                    year = raw_year.text.strip()
                    
                raw_rating = movie.select_one("span.ipc-rating-star--rating")
                if raw_rating:
                    rating = raw_rating.text.strip()
                
                movie_data.append({"Title": title, "Year": year, "Rating": rating})
                
            except Exception as e:
                # 忽略单个电影的解析错误，继续处理下一个
                continue
        
        # 5. 输出结果
        print(f"
成功提取 {len(movie_data)} 部电影数据！")
        for m in movie_data[:3]:
            print(m)
            
        # 6. 保存数据
        df = pd.DataFrame(movie_data)
        filename = "imdb_top_250_movies.csv"
        df.to_csv(filename, index=False, encoding=‘utf-8-sig‘)
        print(f"数据已保存至 {filename}")
        
    except requests.exceptions.RequestException as e:
        print(f"网络请求发生错误: {e}")

# 执行函数
if __name__ == "__main__":
    scrape_imdb_top_250()

进阶见解与最佳实践

虽然上面的脚本已经能够工作，但在实际的生产环境中，我们还需要考虑更多因素。以下是你可能会遇到的问题及解决方案。

#### 1. User-Agent 与 Headers

你有没有试过去爬取某个网站，结果却收到了 403 Forbidden 错误？这是因为现代网站都有反爬虫机制。默认情况下，Requests 发送的请求头中 INLINECODE2652e5d8 会被识别为 INLINECODE5fc241cd，这简直就是在告诉服务器 "我是机器人"。

解决方案： 我们在 INLINECODEf64b987d 中添加了 INLINECODEcdc6ea58 参数，模拟成 Chrome 浏览器。这是最基础也是最有效的伪装手段之一。

#### 2. 错误处理与日志记录

在上述代码中，我们使用了 try...except 块。在实际爬取成千上万个页面时，网络波动、服务器偶尔的超时是常态。如果你的代码没有错误处理机制，爬取到第 199 个数据时因为网络闪断而崩溃，你将不得不从头再来。

最佳实践： 始终捕获异常，记录下是哪个 URL 出错，甚至可以使用 time.sleep() 让程序在每次请求之间暂停几秒，既减轻服务器压力，也降低被封禁的风险。

#### 3. 动态内容与 AJAX (进阶提示)

如果你发现 INLINECODE9903b7c5 抓取的 HTML 中没有你需要的数据，这通常意味着该网站使用了 JavaScript 动态加载数据（例如当你滚动页面时才加载更多内容）。在这种情况下，INLINECODE249c4d1c 和 BeautifulSoup 可能就不够用了。

解决方案： 这时你需要使用 Selenium 或 Playwright 这样的工具，它们可以模拟真实的浏览器行为，执行 JavaScript 代码，等待内容加载完毕后再抓取。对于简单的静态页面（像 IMDb 的这个榜单），BS4 是效率最高的选择；但对于复杂的单页应用（SPA），Selenium 是更好的选择。

#### 4. 数据清洗的艺术

你可能注意到在 "完整代码" 部分，我们添加了一段逻辑来去除标题中的数字前缀（如 "1. "）。这就是数据清洗。在原始数据中，年份可能包含括号 "(1994)"，评分可能包含 "(1.2M)" 的投票人数。在将这些数据存入数据库或用于分析之前，通常需要将文本规范化（例如去除括号、转换为整数类型）。

总结

在这篇文章中，我们深入探讨了如何利用 Python 的 Requests、BeautifulSoup 和 Pandas 库构建一个功能完整的 IMDb 电影数据抓取工具。我们从基础概念出发，逐步构建代码，并讨论了如何通过添加 Headers、异常处理和数据清洗来增强脚本的健壮性。

你可以尝试的下一步

掌握了这些基础技能后，你可以尝试扩展你的项目：

扩展数据字段： 尝试修改 CSS 选择器，抓取电影的 "导演"、"主演" 甚至 "海报图片链接"。
可视化分析： 利用 Matplotlib 或 Seaborn 库，读取刚才保存的 CSV 文件，绘制 "电影年份分布图" 或 "Top 10 电影评分柱状图"。
探索新站点： 不要局限于 IMDb，尝试去抓取你喜欢的电商网站价格、新闻网站头条或者天气预报数据。

希望这篇文章能为你打开网络爬虫的大门。祝你编码愉快，抓取顺利！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客