如何从零开始构建专业数据集：数据科学家的实战指南

2026-02-15 14:36:17 0条评论 1次阅读 0人点赞

在数据科学和机器学习的广阔领域中，我们经常听到这样一句话：“数据决定上限，模型逼近上限。” 无论我们的算法多么精妙，如果喂给它的是一堆杂乱无章的垃圾数据，那么输出结果也必然不尽如人意。构建一个高质量、结构良好的数据集，是任何成功数据项目的基石。这不仅是一项技术活，更是一门艺术。

你是否曾因模型准确率停滞不前而苦恼？或者在处理缺失值时感到束手无策？这通常是因为我们在最初的数据集构建阶段忽略了某些关键细节。在这篇文章中，我们将深入探讨“如何创建数据集”这一核心命题。不仅仅是列出步骤，我将带你像经验丰富的数据工程师一样，从目标的明确到最终的代码实现，一步步构建出经得起推敲的专业级数据集。准备好一起动手了吗？

1 创建数据集的完整生命周期
2 1. 明确目标：指南针的作用
3 2. 识别数据源：寻找数据宝藏
4 3. 数据收集：实战代码演示
5 4. 数据清洗：让数据焕然一新
6 5. 数据转换：让模型读懂数据
7 6. 数据集成：合久必分，分久必合
8 7. 数据验证：信任但需验证
9 8. 文档记录：为未来负责
10 9. 存储与访问：高效的仓库管理
11 10. 维护更新：持续迭代
12 总结

创建数据集的完整生命周期

为了确保我们在构建过程中不迷失方向，我们将创建数据集的流程标准化为以下 10 个关键步骤。这不仅是操作指南，更是最佳实践的清单：

明确目标：弄清楚我们要解决什么问题。
识别数据源：找到可能包含答案的数据宝藏。
数据收集：合法合规地将数据搬运到我们的工作区。
数据清洗：大浪淘沙，去除杂质。
数据转换：将原材料加工成机器可读的格式。
数据集成：将多源数据融合。
数据验证：确保数据真实可靠。
文档记录：为数据编写“说明书”。
存储与访问：建立高效的数据仓库。
维护更新：保持数据的生命力。

接下来，让我们逐一攻克这些环节。

1. 明确目标：指南针的作用

在写第一行代码之前，我们必须先停下来思考：我们到底要解决什么问题？

假设我们要预测房价。如果我们的目标仅仅是“预测价格”，那还不够具体。我们需要问自己：

预测粒度：我们是预测某个城市的平均房价，还是预测某一套具体公寓的价格？
特征需求：影响价格的关键因素是什么？是面积、地段，还是房龄？
时间维度：我们需要预测当前价格，还是未来趋势？

明确目标将直接决定我们需要收集哪些字段（特征）。例如，如果要预测公寓价格，我们就必须收集“楼层”和“朝向”等数据，而这些数据在预测城市均价时可能是不必要的。

2. 识别数据源：寻找数据宝藏

明确了目标后，我们就需要寻找数据的来源。通常，我们可以从以下几个渠道获取数据：

公共数据集：这是初学者的最佳练兵场。比如 Kaggle、UCI 机器学习库以及各类政府开放数据门户。
API 接口：许多现代公司提供 API（应用程序编程接口）。例如，我们可以利用 Twitter API 获取舆情数据，或利用 OpenWeatherMap API 获取气象历史记录。
网络爬虫：当数据不存在于现成的接口时，我们需要自己动手“丰衣足食”。利用 Python 的 INLINECODE1a936763 或 INLINECODE002c20a5 框架，我们可以从网页上提取结构化数据。
问卷调查：对于某些高度专业化的领域，现有的数据可能无法满足需求。这时，通过 Google Forms 或 SurveyMonkey 等工具收集一手数据是必要的。
内部数据库：在公司环境中，最大的金矿往往隐藏在自家的 SQL 数据库或 ERP 系统中。

3. 数据收集：实战代码演示

这是我们将计划付诸行动的阶段。根据数据源的不同，收集手段也千差万别。让我们通过几个实际的代码示例来看看如何操作。

示例 1：使用 API 收集数据

API 是结构化数据的最佳来源。通常我们会使用 INLINECODEa0c56df2 库来获取数据，并用 INLINECODE02bd70f5 进行解析。以下是一个模拟获取天气数据并转换为数据集的示例：

import requests
import pandas as pd

def fetch_weather_data(api_key, location):
    """
    从 API 获取天气数据并返回 DataFrame
    """
    # 模拟 API 请求 URL
    url = f"https://api.openweathermap.org/data/2.5/weather?q={location}&appid={api_key}"
    
    try:
        # 发送 GET 请求
        response = requests.get(url)
        response.raise_for_status() # 检查请求是否成功
        
        # 解析 JSON 数据
        data = response.json()
        
        # 提取关键字段以构建数据集
        # 注意：实际使用中请根据 API 文档调整键名
        weather_record = {
            "city": data.get("name"),
            "temperature": data.get("main", {}).get("temp"),
            "humidity": data.get("main", {}).get("humidity"),
            "description": data.get("weather")[0].get("description")
        }
        
        # 将字典转换为 DataFrame
        df = pd.DataFrame([weather_record])
        return df
        
    except requests.exceptions.RequestException as e:
        print(f"网络请求出错: {e}")
        return pd.DataFrame()

# 让我们尝试收集一组城市的数据
cities = [‘Beijing‘, ‘Shanghai‘, ‘New York‘]
api_key = "YOUR_API_KEY_HERE" # 请替换为真实 API Key

# 批量收集
weather_dataset = pd.DataFrame()
for city in cities:
    city_data = fetch_weather_data(api_key, city)
    weather_dataset = pd.concat([weather_dataset, city_data], ignore_index=True)

print("我们收集到的原始天气数据：")
print(weather_dataset.head())

示例 2：网络爬虫

当数据隐藏在网页的 HTML 标签中时，爬虫就派上用场了。以下是一个简单的示例，展示如何从网页上提取表格数据。请注意，爬虫需遵守 robots.txt 协议。

import requests
from bs4 import BeautifulSoup
import pandas as pd

def scrape_table_data(url):
    """
    从指定 URL 抓取 HTML 表格并转换为 DataFrame
    """
    headers = {‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64)‘}
    
    try:
        # 获取网页内容
        response = requests.get(url, headers=headers)
        response.raise_for_status()
        
        # 解析 HTML
        soup = BeautifulSoup(response.text, ‘html.parser‘)
        
        # 假设我们要抓取网页中的第一个表格
        table = soup.find(‘table‘)
        
        # 提取表头
        headers_list = []
        for th in table.find_all(‘th‘):
            headers_list.append(th.text.strip())
            
        # 提取表格行数据
        rows_data = []
        for tr in table.find_all(‘tr‘):
            cells = tr.find_all(‘td‘)
            if cells:
                rows_data.append([cell.text.strip() for cell in cells])
                
        # 构建 DataFrame
        df = pd.DataFrame(rows_data, columns=headers_list)
        return df
        
    except Exception as e:
        print(f"爬虫抓取出错: {e}")
        return pd.DataFrame()

# 注意：这里使用一个示例 URL，实际运行时请替换为真实存在的包含表格的网页
# target_url = "https://example.com/data-page" 
# scraped_data = scrape_table_data(target_url)
# print(scraped_data.head())

4. 数据清洗：让数据焕然一新

原始数据通常是杂乱的，包含缺失值、重复项甚至错误。数据清洗可能是整个过程中最耗时的一步，但绝对值得。

处理缺失值

我们不仅要知道数据缺失，还要知道“为什么”缺失。

import pandas as pd
import numpy as np

# 模拟一个包含缺失值的数据集
data = {
    ‘id‘: [1, 2, 3, 4, 5],
    ‘age‘: [25, np.nan, 30, 22, np.nan],
    ‘income‘: [50000, 60000, None, 40000, 80000],
    ‘city‘: [‘Beijing‘, ‘Shanghai‘, ‘Beijing‘, None, ‘Shenzhen‘]
}
df = pd.DataFrame(data)

print("清洗前的数据：")
print(df)

# --- 清洗策略 ---

# 策略 1：直接删除缺失值（适用于缺失比例很小的情况）
df_drop = df.dropna()

# 策略 2：填充缺失值
# 对于数值型数据，我们可以使用平均值或中位数填充
# 这能有效保留数据样本量
median_income = df[‘income‘].median()
df_filled = df.copy()
df_filled[‘income‘].fillna(median_income, inplace=True)

# 对于分类数据，我们可以使用众数或特定标记填充
mode_city = df[‘city‘].mode()[0]
df_filled[‘city‘].fillna(mode_city, inplace=True)

print("
清洗后的数据（填充策略）：")
print(df_filled)

实用见解：在填充数据时，尽量不要引入偏差。例如，如果“收入”与“年龄”高度相关，我们可以按年龄组的收入均值进行填充，而不是简单粗暴地用总均值填充。

移除重复项

重复数据会导致模型过拟合，使评估指标虚高。

# 检查是否有重复行
duplicates_count = df.duplicated().sum()
print(f"
发现 {duplicates_count} 行重复数据。")

# 删除完全相同的行
df_unique = df.drop_duplicates()

纠正错误与标准化

日期格式：确保所有日期统一为 YYYY-MM-DD 格式。
文本大小写：将所有文本转换为小写或首字母大写，避免 "Apple" 和 "apple" 被视为两个类别。
异常值处理：可以使用箱线图或 Z-Score 识别异常值。

# 示例：字符串标准化
df[‘city‘] = df[‘city‘].str.lower().str.strip()

5. 数据转换：让模型读懂数据

机器学习模型通常只能处理数字。我们需要将现实世界的信息转换为数学形式。

归一化与缩放

当特征之间的量纲差异巨大时（例如：身高 1.7米 vs 年薪 100000元），模型会被数值大的特征带偏。我们需要使用归一化或标准化。

from sklearn.preprocessing import MinMaxScaler, StandardScaler

# 假设我们要处理 age 和 income
scaler = MinMaxScaler() # 将数据缩放到 0-1 之间

# 注意：转换前必须确保没有缺失值
df_clean = df_filled.dropna(subset=[‘age‘, ‘income‘])

# fit_transform 计算最小最大值并转换
scaled_features = scaler.fit_transform(df_clean[[‘age‘, ‘income‘]])

print("
缩放后的前 5 行数据：")
print(scaled_features[:5])

编码分类变量

我们需要将“北京”、“上海”这样的文本转换为数字。

# 独热编码 - 最常用的方法之一
df_encoded = pd.get_dummies(df_clean, columns=[‘city‘], prefix=‘city‘)

print("
独热编码后的数据集预览：")
print(df_encoded[[‘id‘, ‘city_beijing‘, ‘city_shanghai‘, ‘city_shenzhen‘]].head())

高级技巧：如果某个分类特征有几千个类别（例如“城市名”），独热编码会导致维度爆炸。此时可以考虑目标编码或嵌入技术。

特征工程

这是提升模型性能的秘诀。

# 示例：创建一个新的特征 "收入/年龄" 比率，可能代表购买力
df_encoded[‘income_per_age‘] = df_encoded[‘income‘] / (df_encoded[‘age‘] + 1) # +1 防止除以0

6. 数据集成：合久必分，分久必合

在现实场景中，我们往往需要将“用户基本信息表”和“用户交易记录表”合并在一起。

# 模拟两个数据集
info_df = pd.DataFrame({
    ‘user_id‘: [101, 102, 103],
    ‘name‘: [‘Alice‘, ‘Bob‘, ‘Charlie‘]
})

transaction_df = pd.DataFrame({
    ‘user_id‘: [101, 101, 102],
    ‘purchase_amount‘: [250, 450, 120]
})

# 使用 merge 进行集成（类似于 SQL JOIN）
# how=‘left‘ 表示保留左表所有用户，即使没有交易记录
merged_df = pd.merge(info_df, transaction_df, on=‘user_id‘, how=‘left‘)

# 填充没有交易记录的用户金额为 0
merged_df[‘purchase_amount‘].fillna(0, inplace=True)

print(merged_df)

注意：合并数据时，务必检查键的唯一性和数据类型的一致性，避免因格式不同导致合并失败（例如一个是 INLINECODEc3170dd9，一个是 INLINECODEa28ef4dc）。

7. 数据验证：信任但需验证

在将数据输入模型之前，我们需要像审计员一样检查数据的质量。

交叉核对：检查数据的总和是否与预期相符。例如，全国各省 GDP 之和是否等于全国 GDP。
统计分析：使用 df.describe() 快速查看数值特征的分布。如果最小值是负数但本该是正数（如年龄），说明数据有误。
逻辑验证：结束日期是否晚于开始日期？年龄是否与出生日期匹配？

# 简单的验证函数示例
def validate_data(df):
    errors = []
    # 检查 1：ID 必须唯一
    if df[‘id‘].duplicated().any():
        errors.append("错误：发现重复的 ID")
    
    # 检查 2：数值范围逻辑（假设 age 不能大于 120）
    if ‘age‘ in df.columns:
        if (df[‘age‘] > 120).any():
            errors.append("错误：存在不合理年龄数据 (>120)")
            
    return errors

validation_errors = validate_data(df_clean)
if not validation_errors:
    print("数据验证通过！")
else:
    for err in validation_errors:
        print(err)

8. 文档记录：为未来负责

你是否曾在一个月后完全看不懂自己写的代码？数据文档的作用就在于此。一个专业的数据集通常附带一个 INLINECODE5be4875e 或 INLINECODE9e85df2b 文件，包含：

数据来源：数据从哪来？下载链接是什么？
列名说明：col_01 到底代表什么？单位是什么（元还是万元）？
创建日期：数据是何时生成的？这对于时效性分析至关重要。
变换记录：我们对数据做了哪些清洗操作？是否去除了异常值？

9. 存储与访问：高效的仓库管理

根据数据集的大小，选择合适的存储方案至关重要。

小数据：CSV 文件简单通用，兼容性最好。
大数据：当 CSV 文件超过几百 MB 时，加载速度会变慢。推荐使用 INLINECODE04f2b024 或 INLINECODE505f7cae 格式，它们的读取和写入速度比 CSV 快得多，且占用空间更小。

# 将清洗好的数据集高效存储
# 1. 保存为 CSV (通用但较慢)
df_clean.to_csv(‘my_dataset.csv‘, index=False)

# 2. 保存为 Parquet (推荐用于大数据)
# 需要安装 pyarrow 或 fastparquet 引擎
try:
    df_clean.to_parquet(‘my_dataset.parquet‘, index=False)
    print("数据已成功保存为 Parquet 格式，加载速度将大幅提升！")
except ImportError:
    print("未安装 Parquet 引擎，跳过此步骤。")

10. 维护更新：持续迭代

世界在变，数据也在变。一个在 2020 年构建的房价预测模型，如果直接套用 2024 年的市场数据，效果可能会大打折扣。

我们需要建立机制，定期重新运行数据收集和清洗脚本（通常使用 Airflow 或 Crontab 进行调度），确保数据集始终处于最新状态。同时，我们需要监控数据漂移——即数据的统计分布（如均值、方差）是否发生了显著变化。

总结

创建数据集绝非简单的“下载文件”。它是一个包含了逻辑思考、工程实现和质量控制的艺术过程。从最初明确目标的战略思考，到利用 Python 代码进行清洗、转换和集成的战术执行，每一步都决定了最终数据产品的价值。

通过这篇文章，你不仅学会了如何使用 INLINECODE5688e34f 和 INLINECODE4d92fe31 处理数据，更重要的是，你掌握了构建数据集的全局视野。下一次当你面对一个新项目时，不妨按照我们今天讨论的这 10 个步骤清单进行操作。相信我，高质量的数据集会让你的后续建模工作事半功倍。

现在，打开你的 Jupyter Notebook，去寻找那些隐藏在数据背后的真相吧！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客