深入实战：使用 Python 机器学习预测“太空泰坦尼克号”乘客命运

2026-02-07 19:16:38 0条评论 2次阅读 0人点赞

作为一名机器学习爱好者，我相信你一定对经典的“泰坦尼克号”生存预测项目并不陌生。在那场历史悲剧中，我们需要根据乘客的年龄、性别和社会阶层来预测谁能在海难中生还。这是一个极佳的入门项目，但今天，我们要把目光投向更深远的宇宙。

在本文中，我们将一起探索一个更具科幻色彩且结构更复杂的挑战——“太空泰坦尼克号”项目。在这个项目中，问题的背景已经转换为一艘在星际间航行的飞船。这艘飞船在接近半人马座时，遭遇了一场神秘的时空异常。结果是，虽然飞船本身没有损坏，但近一半的乘客被意外传送到了另一个维度。

我们的任务是成为一名数据侦探，利用机器学习技术分析乘客数据，精准预测哪些乘客被传送，而哪些人留在了飞船上。这不仅仅是一个分类问题，更是一次完整的数据科学探险，涵盖从数据清洗、特征工程到高级模型调优的全过程。

准备工作：导入核心库与工具

在Python的数据科学生态中，有一些不可或缺的利器。让我们首先导入这些库，并配置好我们的环境。正如你所见，我们将使用 INLINECODE24388e31 进行数据操作，INLINECODEaec8764c 处理数值计算，INLINECODE965ad10b 和 INLINECODE485f5e11 进行可视化，以及 INLINECODEd5383b66 和 INLINECODEd9165fca 进行模型构建。

这里有一个专业的建议：在实际开发中，我们通常会在代码开头忽略警告（warnings），以保持输出界面的整洁，但这并不意味着我们可以忽略模型潜在的问题。我们将在后续的步骤中严谨地处理数据质量。

# 导入必要的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sb

# sklearn 模块：用于数据预处理、模型训练和评估
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn import metrics
from sklearn.svm import SVC
from xgboost import XGBClassifier
from sklearn.linear_model import LogisticRegression

# 忽略警告信息，保持输出整洁
import warnings
warnings.filterwarnings(‘ignore‘)

数据加载与初探：揭开数据的面纱

现在，让我们将数据集加载到 Pandas 的 DataFrame 中。这是数据分析的第一步，就像拿到一份案件的第一手档案。

# 加载数据集
df = pd.read_csv(‘spaceship_titanic.csv‘)

# 查看前5行数据，以此对数据结构建立一个直观的印象
df.head()

运行上述代码后，你会看到一个包含各种信息的表格。为了确保我们理解手中的“武器”，让我们详细解读一下关键字段的含义：

HomePlanet（母星）：乘客出发时的星球，这可能影响他们的身体素质或文化背景。
CryoSleep（冷冻休眠）：这是一个非常关键的特征。指乘客在航行期间是否被置于类似动画暂停的休眠状态。常识告诉我们，处于休眠状态的乘客可能被限制在客舱内，这直接影响他们是否会被“传送走”。
VIP（贵宾服务）：布尔值，指示该乘客是否支付了贵宾服务费用。贵宾的舱位位置可能更安全或更危险，这是我们需要探索的。
消费类特征（RoomService, FoodCourt, ShoppingMall, Spa, VRDeck）：这些是乘客在飞船各个场所消费的金额。数值数据往往蕴含着丰富的信息，例如，消费为0可能意味着该乘客一直处于冷冻休眠状态，或者根本没钱消费。
Transported（目标变量）：这是我们最终要预测的列。它是布尔值，INLINECODEf2fa3cae 表示被传送到了另一个维度，INLINECODE523f48d3 表示留在了飞船上。

#### 数据规模与类型检查

了解数据集的“体量”和“成分”至关重要。我们将使用 INLINECODEd5b714e2 和 INLINECODE93a85947 方法。

# 检查数据集的维度（行数和列数）
df.shape

输出结果将显示 (8693, 14)，这意味着我们有近 9000 条乘客记录和 14 个特征。这是一个不算小的数据集，足以让机器学习模型学到有效的模式。

# 检查每一列的数据类型和非空值数量
df.info()

这一步非常关键。你会发现，数据集中包含了浮点数、对象（字符串）和布尔值。更重要的是，几乎所有列都存在非空值数量少于总行数的情况，这意味着缺失值（Missing Values） 是我们必须面对的一大挑战。

描述性统计分析：寻找数据的脉络

在清洗数据之前，让我们先通过统计描述来看看数据的分布情况。

# 获取数值型特征的描述性统计
df.describe()

观察输出结果，你会注意到一些有趣的现象：

消费金额的巨大差异：大部分乘客的消费金额中位数为0，但存在极大的最大值，这说明数据分布可能存在严重的右偏（长尾分布）。在处理这类数据时，我们可能需要考虑对数转换或分箱操作，以减少极端值对模型的影响。
年龄分布：我们可以看到乘客的年龄范围，这有助于我们决定是否需要进行分段处理。

数据清洗：构建坚实地基的基石

从现实世界获取的数据往往是“脏”的。在我们训练模型之前，必须进行严格的数据清洗。这一步骤的质量往往直接决定了模型的上限。

#### 1. 可视化缺失值

首先，让我们直观地看看哪些列的缺失情况最严重。

# 计算每列的缺失值并绘制柱状图
df.isnull().sum().plot.bar()
plt.show()

通过图表，你可以清晰地看到 INLINECODEf9826848、INLINECODE26fd2efb、VIP 等列都存在不同程度的缺失。盲目删除这些行是不可取的，因为那样会损失大量宝贵信息。我们将采用更智能的填补策略。

#### 2. 特征填充：深入逻辑的插补

与其简单地用平均值或中位数填充所有缺失值，不如让我们结合业务逻辑来进行“智能填充”。这是一个能显著提升模型性能的高级技巧。

假设与验证：

让我们思考一个逻辑：如果一个乘客选择了在航行期间冷冻休眠，他们被锁在舱室里，怎么可能去消费呢？因此，所有处于冷冻休眠的乘客，其在 INLINECODEcd164f28、INLINECODE79b05e76、INLINECODEe3b1f110、INLINECODEc700f6b6 和 VRDeck 上的消费应该是 0。

让我们利用这个关系来填充数据。这是一个典型的条件填充场景。

# 选取消费相关的列名
expense_cols = df.loc[:, ‘RoomService‘:‘VRDeck‘].columns

# 填充逻辑：如果 CryoSleep 为 True，则所有消费列的缺失值填充为 0
# 注意：这里使用了 .loc 确保我们在原始DataFrame上操作
for col in expense_cols:
    # 使用布尔索引筛选 CryoSleep 为 True 的行，并填充对应消费列为 0
    df.loc[df[‘CryoSleep‘] == True, col] = df.loc[df[‘CryoSleep‘] == True, col].fillna(0)

处理非休眠乘客：

对于未休眠的乘客，如果他们的消费数据有缺失，这很可能是记录错误。我们可以选择用该群体的中位数或0来填充。为了简单且稳健，对于剩余的消费类缺失值，我们可以尝试用0填充（假设未记录即未消费），或者用中位数。在这里，为了演示逻辑，我们对剩余的空值进行统一处理。

# 对于剩余的消费列缺失值（例如非休眠乘客），我们可以用0或中位数填充
# 这里我们选择0，假设数据缺失代表没有消费行为
for col in expense_cols:
    df[col] = df[col].fillna(0)

处理分类特征：

对于像 INLINECODEe267658a 或 INLINECODE4875dbdd 这样的分类特征，使用众数来填充是最常见的策略。

# 填充分类特征的缺失值，这里以 HomePlanet 和 CryoSleep 为例
df[‘HomePlanet‘] = df[‘HomePlanet‘].fillna(df[‘HomePlanet‘].mode()[0])
df[‘CryoSleep‘] = df[‘CryoSleep‘].fillna(df[‘CryoSleep‘].mode()[0])
df[‘VIP‘] = df[‘VIP‘].fillna(False) # VIP 缺失通常默认为 False

特征工程：点石成金的魔法

原始数据往往不能直接喂给模型。我们需要通过特征工程，提取出更具预测力的信息。这是区分普通人和高阶数据科学家的关键步骤。

#### 1. 提取“群体”信息

在原始数据中，INLINECODEd4486644 看起来只是一个无意义的字符串。但如果你仔细观察（例如 INLINECODEd3c461ed），会发现它由两部分组成：前面的数字代表群体编号，后面的数字代表该群体内的成员序号。

这是一个极其重要的隐藏特征！因为家庭成员或旅行团通常是作为一个整体行动的。如果一个人被传送，他的同伴大概率也会受影响。

让我们从 INLINECODE0663f6d0 中提取出 INLINECODE1159d778 特征。

# 将 PassengerId 拆分为 Group 和 Id
# new=True 表示允许我们修改原始字符串对象（虽然这里主要依赖返回值）
id_split = df[‘PassengerId‘].str.split(‘_‘, expand=True)

# 创建新列 Group，将其转换为整数类型
df[‘Group‘] = id_split[0].astype(int)
df[‘GroupSize‘] = df.groupby(‘Group‘)[‘Group‘].transform(‘count‘)

# 查看群体大小的分布
print(df[‘GroupSize‘].value_counts())

通过这段代码，我们创造了一个全新的特征 GroupSize（群体大小）。独自旅行（GroupSize=1）的乘客和一大群人一起旅行的乘客，其被传送的概率模式可能截然不同。

#### 2. 数据编码：让机器听懂人类语言

计算机无法直接理解“Earth”、“Mars”或“Europa”这样的字符串。我们需要将它们转换为数值。

目标变量编码：INLINECODE99a4cae2 列包含 INLINECODEd35ddf4b 和 False，我们需要将其转换为 1 和 0。

# 将目标变量 Transported 转换为整数（1 和 0）
df[‘Transported‘] = df[‘Transported‘].astype(int)

分类特征编码：对于 INLINECODE1fe66506 和 INLINECODEa849e01a 等无序分类变量，我们将使用 独热编码 或 标签编码。在这个例子中，为了保持代码简洁且不增加过多维度，我们演示标签编码的用法，但请注意，对于线性模型，独热编码通常是更安全的选择。

# 对于简单的二元分类，我们直接替换
# 比如 VIP 和 CryoSleep 已经是 True/False，Sklearn 可以处理，但为了统一风格：
df[‘CryoSleep‘] = df[‘CryoSleep‘].astype(int)
df[‘VIP‘] = df[‘VIP‘].astype(int)

# 对于多分类变量，这里使用 LabelEncoder 进行演示
# 注意：实际上对于 HomePlanet 这种没有顺序关系的变量，使用 pd.get_dummies 可能更好
le = LabelEncoder()
for col in [‘HomePlanet‘, ‘Destination‘]:
    df[col] = le.fit_transform(df[col])

模型开发与训练：见证奇迹的时刻

数据已经准备就绪，现在到了最激动人心的时刻——训练模型。我们将尝试两种经典的算法：逻辑回归 和 XGBoost。

首先，我们需要将数据集拆分为特征矩阵 (X) 和 目标向量，然后再划分为训练集 和 验证集。

# 选择用于训练的特征列（排除非数值型的 ID 和 Name 等无用列）
# 在实际项目中，你应该小心排除 PassengerId 和 Name 等列
features = [‘HomePlanet‘, ‘CryoSleep‘, ‘Destination‘, ‘Age‘, ‘VIP‘, ‘RoomService‘, 
            ‘FoodCourt‘, ‘ShoppingMall‘, ‘Spa‘, ‘VRDeck‘, ‘GroupSize‘]

X = df[features]
y = df[‘Transported‘]

# 数据标准化：这对很多算法（如 SVM、逻辑回归）至关重要
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 划分训练集和测试集，测试集占 20%
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.2, random_state=42
)

代码解析：

这里我们使用了 INLINECODE599ee20f。为什么要标准化？ 因为像 INLINECODEdae264c2 的数值范围可能是几千，而 VIP 是 0 或 1。如果不进行缩放，拥有大数值范围的特征会主导模型（尤其是基于距离的模型），导致模型忽略了其他重要特征。缩放将所有特征拉到同一尺度上，大大提升了模型的收敛速度和精度。

#### 模型 1：逻辑回归

让我们先建立一个基准模型。逻辑回归简单、高效，且具有很好的可解释性。

# 初始化逻辑回归模型
model_lr = LogisticRegression()

# 在训练集上拟合模型
model_lr.fit(X_train, y_train)

# 在测试集上进行预测
y_pred_lr = model_lr.predict(X_test)

# 评估模型：打印准确率
print("逻辑回归准确率:", metrics.accuracy_score(y_test, y_pred_lr))

#### 模型 2：XGBoost (Extreme Gradient Boosting)

XGBoost 是数据科学竞赛中的“大杀器”。它是一种基于树的集成学习算法，通常能提供比传统模型更高的精度。

# 初始化 XGBClassifier
# 使用学习率 eta 控制步长，防止过拟合
model_xgb = XGBClassifier(use_label_encoder=False, eval_metric=‘logloss‘, eta=0.1)

# 训练模型
model_xgb.fit(X_train, y_train)

y_pred_xgb = model_xgb.predict(X_test)

# 评估
print("XGBoost 准确率:", metrics.accuracy_score(y_test, y_pred_xgb))

性能优化建议： 在实际应用中，你不会只使用默认参数。你应该使用 INLINECODEb3609e5d 或 INLINECODEd8f762dd 来寻找最佳的超参数组合（如 INLINECODE5b90be2e, INLINECODE7133d90f, learning_rate）。这一步虽然耗时，但往往能将准确率提升好几个百分点。

总结与关键要点

在这趟星际数据探险中，我们不仅仅写了几行代码，更重要的是，我们实践了一个完整的数据科学工作流。让我们回顾一下提升项目质量的关键点：

深入理解业务逻辑：我们不仅仅是机械地填充均值，而是利用“冷冻休眠 = 无消费”这一逻辑填补了数据，这种基于领域的知识是机器学习成功的关键。
特征工程的重要性：通过从 INLINECODE436b0968 中提取 INLINECODE0b7985d9，我们创造了极具价值的新信息。这比单纯调参要有效得多。
数据预处理不可少：标准化数据确保了模型能够公平地对待每一个特征。
模型对比：不要满足于单一模型。尝试逻辑回归、XGBoost，甚至 SVM，对比它们的表现。

你现在已经掌握了处理结构化分类问题的核心技能。下一步，建议你尝试使用交叉验证来获得更稳健的模型评估，或者尝试生成特征重要性图表，看看究竟是哪个因素（是冷冻休眠？还是在 VRDeck 上的巨额消费？）最决定了乘客的命运。祝你在数据科学的宇宙中航行愉快！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客