构建 Flipkart 商品价格追踪器：利用 Python 实现自动化监控与省钱攻略

2026-02-06 11:10:18 0条评论 4次阅读 0人点赞

Flipkart Private Limited 是印度领先的电子商务巨头之一，提供了从电子产品到日常生活用品的丰富选择。如果你经常在 Flipkart 上购物，你一定注意到商品的价格就像过山车一样，总是在不断波动。通常在大促活动（如 Big Billion Days）或节假日期间，价格会有显著下降。作为一个精明的消费者，我们的目标非常明确：在价格触及最低点时“抄底”，以最划算的价格购入心仪的商品。

但是，整天盯着浏览器刷新页面显然不是一种高效的生活方式。在这篇文章中，我们将深入探讨如何利用 Python 构建一个功能齐全的 Flipkart 商品价格追踪器。我们将一起编写代码，通过这段脚本自动监控商品价格，一旦价格降到我们设定的心理价位，程序会立即通知我们。这不仅是一次技术的实践，更是实实在在帮你省钱的好帮手。

核心思路：如何让电脑代替我们“盯梢”

我们的核心逻辑非常直观：编写一段 Python 脚本，让它按照设定的时间间隔（例如每小时或每天）去访问特定的 Flipkart 商品页面，抓取最新的价格数据，并将其与我们设定的“目标价格”进行比较。如果当前价格低于或等于目标价格，程序就会发出通知；否则，它会继续休眠并等待下一次检查。

为了实现这一点，我们需要解决两个主要问题：

如何获取数据：我们需要一种方法让程序像浏览器一样“访问”网页。
如何解析网页：网页本质上是由 HTML 代码构成的，我们需要从这些复杂的代码中精准地提取出“价格”这一数字。

#### 寻找网页中的唯一标识

由于我们需要从网页源代码中抓取价格，我们必须找到价格在 HTML 结构中的“地址”。这就好比我们需要知道快递单号才能查到物流信息。网页开发者通常使用 INLINECODEa4d991a9（类名）或 INLINECODE6effb2e9 来标识特定的元素。

让我们打开浏览器，访问 Flipkart 上的任意商品页面（这里以一款笔记本电脑为例）。当你看到价格时，请按照以下步骤操作：

右键点击价格显示区域。
在弹出的菜单中选择“检查”或“检查元素”。

此时，浏览器的开发者工具会打开，并高亮显示对应的 HTML 代码。!检查元素示例

在 HTML 代码中，我们通常能看到类似 INLINECODEb3ecbaa6 的结构。这里，INLINECODE42224087 和 _16Jk6d 就是类名。

#### 确定唯一的定位器

有时候，一个类名可能在页面中被多次使用（例如页面底部的推荐商品也可能使用相同的类名）。为了确保我们抓取的是主商品的价格，而不是推荐商品的价格，我们需要选择一个在整个页面中只出现一次的类名。

在上面的例子中，我们注意到了两个类名：INLINECODE9bdcfe0c 和 INLINECODEb816138b。为了验证哪个更适合，我们可以先通过代码进行统计。

实战准备：所需的 Python 库

Python 之所以强大，是因为它拥有庞大的生态系统。对于本教程，我们需要借助以下几个核心库来实现我们的目标，它们将极大地简化我们的工作流程。

Requests：这是 Python 中处理 HTTP 请求的“瑞士军刀”。它允许我们像浏览器一样发送网络请求，并获取网页的原始 HTML 内容。相比于 Python 内置的 INLINECODEecc334d8，INLINECODE80da7bb0 更加人性化且易于使用。
BeautifulSoup（来自 bs4 包）：这是一个用于解析 HTML 和 XML 文件的库。它将复杂的网页文档转换成一棵“树”，让我们可以轻松地通过标签、类名或 ID 来搜索和提取数据（就像在 DOM 树中导航一样）。
Time：这是一个内置模块，主要用于处理与时间相关的操作。在我们的脚本中，它将用于让程序“暂停”（休眠），从而避免过于频繁地请求服务器，防止 IP 被封禁。

步骤 1：验证并定位价格元素

在正式编写追踪器之前，让我们先写一个小脚本来验证我们之前找到的类名 INLINECODE6f9a34e2 和 INLINECODE5e62d9d1 在页面中出现的次数。这是确保数据准确性的关键一步。

我们可以使用 INLINECODEa6dd166c 获取网页源码，然后简单地使用字符串的 INLINECODEb7dc19f0 方法来统计出现频率。

import requests

# 目标商品的 URL (这里以 Flipkart 上的一款联想笔记本电脑为例)
product_url = "https://www.flipkart.com/lenovo-ideapad-3-core-i3-11th-gen-8-gb-512-gb-ssd-windows-11-home-82h801l7in/p/itm0e009f57a591b?pid=COMG9VHHG6Q3RRJX"

try:
    # 发送 HTTP GET 请求获取网页内容
    # 设置 headers 模拟浏览器行为，可以降低被反爬虫拦截的风险
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"}
    r = requests.get(product_url, headers=headers)
    r.raise_for_status() # 检查请求是否成功 (状态码 200)

    # 获取网页的文本内容
    content = r.text

    # 统计特定类名出现的次数
    count_30jeq3 = content.count(‘_30jeq3‘)
    count_16Jk6d = content.count(‘_16Jk6d‘)

    print(f"类名 ‘_30jeq3‘ 在页面中出现的次数: {count_30jeq3}")
    print(f"类名 ‘_16Jk6d‘ 在页面中出现的次数: {count_16Jk6d}")

except requests.exceptions.RequestException as e:
    print(f"网络请求出错: {e}")

预期输出示例：

类名 ‘_30jeq3‘ 在页面中出现的次数: 4
类名 ‘_16Jk6d‘ 在页面中出现的次数: 1

#### 结果分析

从输出结果可以看出，INLINECODE92bfd55b 出现了 4 次，这可能会导致混淆（例如抓到了推荐商品的价格）。而 INLINECODEf457994d 只出现了 1 次，这正是我们要找的唯一标识符。因此，接下来的爬虫逻辑中，我们将使用 _16Jk6d 来精准定位主商品的价格。

步骤 2：构建完整的追踪逻辑

现在我们已经确定了定位目标，接下来让我们编写完整的逻辑。我们需要实现以下功能：

定义配置：设置商品 URL 和你期望购买的“目标价格”。
编写价格检查函数 check_price()：

* 使用 requests.get() 获取页面。

* 使用 BeautifulSoup 解析 HTML。

* 使用 soup.find() 提取价格文本（例如 "₹54,990"）。

* 数据清洗：去掉前面的货币符号（如 ₹ 或 Rs），去掉逗号（,），并将字符串转换为整数（例如 54990）。

主循环：反复调用 check_price()，判断是否低于目标价格。

#### 解析价格并清洗数据

从网页上抓取下来的数据通常是字符串格式，且带有额外的符号。直接比较 "₹54,990" 和 35000 是行不通的。我们需要编写一个清洗函数。

import requests
from bs4 import BeautifulSoup

def clean_price_string(price_str):
    """
    辅助函数：清洗提取出的价格字符串，将其转换为浮点数。
    处理常见的货币符号和逗号。
    """
    try:
        # 去除可能的货币符号 (如 ₹, Rs, $ 等)
        # 这里去除字符串开头的非数字字符（除了负号和小数点）
        cleaned_str = price_str.replace(‘₹‘, ‘‘).replace(‘Rs‘, ‘‘).replace(‘,‘, ‘‘).strip()
        return float(cleaned_str)
    except ValueError:
        print("无法转换价格字符串，请检查提取的内容。")
        return None

#### 核心监控代码

下面是整合了清洗逻辑的完整代码。请仔细阅读注释，理解每一行的作用。

import requests
from bs4 import BeautifulSoup
import time
import datetime

def check_price(url, target):
    """
    检查商品价格的核心函数。
    返回: (current_price, title) 如果成功，否则返回 (None, None)
    """
    try:
        # 设置 Headers 是非常重要的，它能模拟真实用户访问，防止被反爬虫策略拦截
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
            "Accept-Language": "en-US,en;q=0.9"
        }
        
        response = requests.get(url, headers=headers)
        
        # 检查请求状态码，200 表示成功
        if response.status_code != 200:
            print(f"请求失败，状态码: {response.status_code}")
            return None, None

        # 使用 BeautifulSoup 解析网页内容
        soup = BeautifulSoup(response.content, ‘html.parser‘)

        # 1. 提取价格：使用我们验证过的唯一类名 ‘_16Jk6d‘
        price_div = soup.find(‘div‘, attrs={"class": "_16Jk6d"})
        if not price_div:
            # 有时候网页结构会微调，如果找不到，可以尝试打印 soup.text 寻找线索
            print("错误：未找到价格元素，可能是网页结构已更改或被重定向到登录页。")
            return None, None
            
        raw_price = price_div.text
        current_price = clean_price_string(raw_price)

        # 2. 提取商品标题（可选，用于通知中显示商品名）
        # Flipkart 的商品标题通常在 ‘span.B_NuCI‘ 下
        title_div = soup.find(‘span‘, class_="B_NuCI")
        product_title = title_div.text.strip() if title_div else "未命名商品"

        return current_price, product_title

    except Exception as e:
        print(f"发生未知错误: {e}")
        return None, None

# --- 主程序入口 ---

# 配置参数
PRODUCT_URL = "https://www.flipkart.com/lenovo-ideapad-3-core-i3-11th-gen-8-gb-512-gb-ssd-windows-11-home-82h801l7in/p/itm0e009f57a591b?pid=COMG9VHHG6Q3RRJX"
TARGET_PRICE = 35000  # 你的目标价格（卢比）
CHECK_INTERVAL = 3600 # 检查间隔时间（秒），这里设置为 1 小时

print(f"--- 脚本开始运行 ---")
print(f"正在监控商品: {PRODUCT_URL}")
print(f"目标价格: ₹{TARGET_PRICE}")

while True:
    current_price, title = check_price(PRODUCT_URL, TARGET_PRICE)
    
    if current_price:
        print(f"[{datetime.datetime.now().strftime(‘%Y-%m-%d %H:%M:%S‘)}] 检查完毕 -> 当前价格: ₹{current_price}")
        
        if current_price <= TARGET_PRICE:
            print("
" + "="*30)
            print("🎉 好消息！价格已降至目标价位或更低！")
            print(f"商品: {title}")
            print(f"当前价格: ₹{current_price}")
            print("快去下单吧！")
            print("="*30 + "
")
            
            # 在实际应用中，这里可以添加发送邮件或短信的代码
            break # 任务完成，退出循环
        else:
            diff = current_price - TARGET_PRICE
            print(f"尚未达到目标，还需降价 ₹{diff}。")
    else:
        print("本次未能获取到价格，将在下一轮重试...")

    print(f"等待 {CHECK_INTERVAL} 秒后进行下一次检查...
")
    time.sleep(CHECK_INTERVAL)

常见问题与解决方案

在实际编写和运行爬虫时，你可能会遇到一些“坑”。以下是几个常见的问题及其解决方案，这些经验能帮你节省大量的调试时间。

#### 1. 遇到 403 Forbidden 或 429 Too Many Requests

原因：Flipkart 检测到你不是浏览器，而是脚本，或者你的请求频率过高。
解决方案：

伪装 User-Agent：务必在 INLINECODEce4e4e48 中添加 INLINECODE8b912f55 参数，模拟浏览器的身份（如代码中所示）。
控制频率：不要将 CHECK_INTERVAL 设置得太短。1秒一次是绝对不行的，建议至少 5 分钟以上，甚至更长。

#### 2. 找不到价格元素（返回 None）

原因：

登录拦截：Flipkart 某些商品在未登录状态下只显示摘要。这通常是动态加载的内容（AJAX），简单的 requests 无法获取。
类名变更：网站改版了。

解决方案：

检查 soup 的内容。如果内容包含“Login”或“Sign in”，说明你需要处理 Cookie 或使用 Selenium。
如果是动态加载，可以考虑使用 INLINECODE9a6fbcb8 库配合 INLINECODE3cf3ca6a 来模拟真实浏览器操作，虽然这会占用更多系统资源，但能绕过基本的反爬虫机制。

#### 3. 价格格式异常

原因：不同品类的商品价格格式可能不同（例如有的包含小数点，有的没有）。
解决方案：确保 clean_price_string 函数足够健壮，能够处理逗号、空格和特殊符号。使用正则表达式（Regex）也是一种更强大的提取方法。

进阶优化与实用建议

当你完成基础功能后，你可能会想：

添加通知功能：与其盯着控制台，不如集成邮件发送库（如 smtplib）或使用第三方服务（如 Telegram Bot, Twilio SMS）。这样当价格达标时，你的手机会收到真正的推送。
历史数据记录：不仅可以追踪当前价格，还可以将每次抓取的价格记录到 CSV 文件或数据库中。通过这些数据，你可以分析 Flipkart 的定价策略，预测未来的最佳购买时机。
多商品监控：将 URL 和目标价格存储在一个列表或字典中，通过循环实现对多个商品的批量监控。

总结

通过这篇文章，我们从零开始，学习了如何使用 Python 的 INLINECODE37ee8da8 和 INLINECODEd66047d5 库来构建一个 Flipkart 商品价格追踪器。我们不仅掌握了发送 HTTP 请求和解析 HTML 的基本技能，还深入了解了如何通过验证类名来确保数据的准确性，以及如何处理常见的数据清洗问题。

最重要的是，你现在拥有了一个可以自动化的工具，帮你以最优惠的价格买到心仪的商品。希望你能在这个基础上继续探索，添加邮件通知、数据可视化等更多高级功能。祝你的编程之旅愉快，省钱更愉快！

请记住，遵守网站的 robots.txt 协议和合理使用爬虫是每个开发者应尽的职业道德。

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客