使用 Python 和 Keras 实战图像分类：从零构建卷积神经网络

2026-02-13 23:56:14 0条评论 2次阅读 0人点赞

1 引言：为什么图像分类如此重要？
2 项目概览：我们要解决什么问题？
3 数据集准备：工欲善其事，必先利其器
4 环境配置与库的导入
5 模型的配置参数
6 检查图像格式（Channels First vs Channels Last）
7 构建卷积神经网络（CNN）架构
8 编译模型：选择损失函数与优化器
9 数据增强与预处理：让数据更丰富
10 训练模型：见证奇迹的时刻
11 保存模型以便后续使用

引言：为什么图像分类如此重要？

在现代人工智能应用中，图像分类无疑是最基础也是最核心的技能之一。无论你是想要构建一个自动识别用户上传照片的 App，还是希望通过机器视觉自动化工厂的质量检测，理解图像分类的工作原理都是你迈向 AI 工程师的第一步。

在这篇文章中，我们将通过一个实战案例，手把手教你如何使用 Python 和 Keras 框架构建一个卷积神经网络（CNN）。我们将解决一个经典的二分类问题：区分图片中的物体是“汽车”还是“飞机”。

你将学到以下核心内容：

如何准备和预处理图像数据集
如何构建属于你第一个卷积神经网络模型
如何利用数据增强技术防止模型过拟合
如何训练模型并评估其性能

我们将跳过复杂的数学推导，直接从代码和实战角度切入，让你在理解原理的同时，也能掌握真正能跑的代码。

项目概览：我们要解决什么问题？

我们的目标非常明确：训练一个模型，当给它一张图片时，它能准确地告诉我们这是“飞机”还是“汽车”。

在开始敲代码之前，我们需要明确一下实现图像分类的两种主要策略：

从零开始训练： 也就是我们今天要做的。这种方式适合学习原理，或者在数据集非常独特、没有现成模型可用的情况下使用。
迁移学习（微调）： 比如使用已经在大规模数据集（如 ImageNet）上训练好的 VGG16 或 ResNet 模型，只对最后几层进行微调。这在工业界是更常见的做法，因为它速度快且准确率高。

今天，我们将专注于第一种策略，打好地基。

数据集准备：工欲善其事，必先利其器

在这个项目中，我们使用了一个经过精简的数据集，非常适合快速迭代训练：

训练数据： 包含 400 张图片（200 张汽车，200 张飞机）。
测试数据： 包含 100 张图片（50 张汽车，50 张飞机）。

为了确保代码能顺利运行，你的文件夹结构必须严格按照 Keras 的要求来组织。Keras 的 flow_from_directory 函数会自动根据子文件夹的名称来生成标签。因此，你的目录结构应该如下所示：

v_data/
├── train/
│   ├── cars/      (存放 200 张汽车图片)
│   └── planes/    (存放 200 张飞机图片)
└── test/
    ├── cars/      (存放 50 张汽车图片)
    └── planes/    (存放 50 张飞机图片)

实用见解：

在整理数据时，确保图片的尺寸和格式尽量统一。虽然我们可以在代码中处理尺寸，但格式统一可以减少预处理过程中的报错。

环境配置与库的导入

开始之前，请确保你已经安装了 TensorFlow（Keras 已集成在其中）。训练这样的小型模型，其实不需要非常高端的 GPU，普通的 CPU 也能在几分钟内跑完，但当然，有 GPU 会更快。

首先，我们需要导入所有必要的库。代码如下：

# 导入所有必要的库
from keras.preprocessing.image import ImageDataGenerator
from keras.models import Sequential
from keras.layers import Conv2D, MaxPooling2D
from keras.layers import Activation, Dropout, Flatten, Dense
from keras import backend as K

# 定义图像的全局尺寸
# 我们选择 224x224，这是一个经典的尺寸（VGG模型也使用这个尺寸）
img_width, img_height = 224, 224

代码详解：

ImageDataGenerator: 这是我们的“数据加工厂”，用于实时生成图像数据，还能做数据增强。
Sequential: 这是 Keras 中最简单的线性模型堆叠方式，一层接一层。
backend as K: 这是一个底层接口，我们需要用它来检查图像的数据格式。

模型的配置参数

在构建模型结构之前，我们先定义一些超参数。这样做的好处是，当你以后想要调整实验参数时，只需要修改这里，而不需要深入到底层代码中去修改。

train_data_dir = ‘v_data/train‘
validation_data_dir = ‘v_data/test‘
nb_train_samples = 400  # 训练样本总数
nb_validation_samples = 100  # 验证（测试）样本总数
epochs = 10  # 训练轮数：完整遍历数据集的次数
batch_size = 16  # 每次梯度更新使用的样本数

关于 Epochs 和 Batch Size 的实用建议：

Batch Size (16): 较小的 Batch Size 通常能提供更稳定的收敛性，但训练时间稍长。对于这个只有 400 张图片的小数据集，16 是一个很好的平衡点。
Epochs (10): 这是一个经验值。如果模型在训练后期准确率不再上升，说明可能已经收敛了；如果还在上升，你可以尝试增加这个数字。

检查图像格式（Channels First vs Channels Last）

在构建卷积层之前，我们必须处理一个技术细节：图像数据的维度排列方式。

不同的后端（如 TensorFlow 或 Theano/MXNet）对 RGB 图像通道的处理方式不同：

Channels Last (TensorFlow 默认): INLINECODEab6b4823，例如 INLINECODEbec53786。
Channels First: INLINECODEdbce3c15，例如 INLINECODEd5f39d36。

为了让我们的代码具有通用性，无论你使用什么后端都能运行，我们需要加入以下判断代码：

if K.image_data_format() == ‘channels_first‘:
    input_shape = (3, img_width, img_height)
else:
    input_shape = (img_width, img_height, 3)

这段代码会自动检测环境，并设置正确的 input_shape，确保模型接收到的数据格式是正确的。

构建卷积神经网络（CNN）架构

这是最令人兴奋的部分！我们要搭建一个专门用于识别图像特征的神经网络。CNN 之所以适合图像处理，是因为它能捕捉到图像的局部特征，比如边缘、纹理，并随着层数加深，将这些特征组合成更复杂的形状（如车轮或机翼）。

我们使用 Sequential 模型来堆叠层：

model = Sequential()

# 第一层卷积块
model.add(Conv2D(32, (2, 2), input_shape=input_shape))
model.add(Activation(‘relu‘))
model.add(MaxPooling2D(pool_size=(2, 2)))

# 第二层卷积块
model.add(Conv2D(32, (2, 2)))
model.add(Activation(‘relu‘))
model.add(MaxPooling2D(pool_size=(2, 2)))

# 第三层卷积块
model.add(Conv2D(64, (2, 2)))
model.add(Activation(‘relu‘))
model.add(MaxPooling2D(pool_size=(2, 2)))

核心组件解析

Conv2D (卷积层): 你可以把它看作是一个扫描器。它使用许多小窗口（这里是 2×2）在图像上滑动，提取特征。32 表示我们使用了 32 个不同的过滤器，每个过滤器负责提取不同的特征。
Activation(‘relu‘) (激活函数): ReLU（线性整流单元）帮助网络处理非线性数据。简单来说，它把负值变为 0，保留正值，这能让模型学习得更有效。
MaxPooling2D (池化层): 这是一个下采样过程。它从 2×2 的区域中只保留最大的那个值。这有什么用呢？它不仅减少了计算量，还让模型对图像的轻微位移（比如飞机稍微向左移了一点）具有鲁棒性。

全连接层与输出

提取完特征后，我们需要将这些特征“压平”，并通过全连接层进行分类决策：

# 将多维特征图展平为一维向量
model.add(Flatten())

# 全连接层，包含 64 个神经元
model.add(Dense(64))
model.add(Activation(‘relu‘))

# Dropout 层，防止过拟合
model.add(Dropout(0.5))

# 输出层
model.add(Dense(1))
model.add(Activation(‘sigmoid‘))

术语解释：

Flatten: 将卷积提取的二维或三维特征图拉直成一条长线，以便后面的全连接层处理。
Dense: 全连接层，这是传统的神经网络结构，用于整合所有特征。
Dropout (0.5): 这是一个非常实用的技巧。它在训练过程中随机“扔掉” 50% 的神经元。这迫使模型不要过度依赖某些特定的特征路径，从而有效地防止过拟合（Overfitting），让你的模型在面对新图片时表现更稳健。
Sigmoid: 用于输出层的激活函数。它将结果压缩到 0 到 1 之间。因为我们是二分类问题，结果大于 0.5 就是一类，小于 0.5 就是另一类。

编译模型：选择损失函数与优化器

模型结构搭好了，现在需要告诉模型“怎么学”。我们使用 compile 方法来配置学习过程：

model.compile(loss=‘binary_crossentropy‘,
              optimizer=‘rmsprop‘,
              metrics=[‘accuracy‘])

Binary Crossentropy (二元交叉熵): 这是二分类任务的标准损失函数。它衡量模型预测的概率与真实标签之间的差距。
RMSprop: 这是一个自适应学习率的优化算法。相比于普通的 SGD，RMSprop 通常能更快收敛，且不需要太多的参数调整，非常适合这种快速原型开发。
Metrics=[‘accuracy‘]: 让 Keras 在训练过程中打印准确率，方便我们监控模型表现。

数据增强与预处理：让数据更丰富

如果直接把原始图片扔进模型，模型很容易“死记硬背”训练数据。为了让模型更聪明，我们需要对图像进行实时数据增强。这意味着在训练过程中，我们会随机旋转、剪切、缩放图片，从而人为地扩充数据集。

# 训练数据的增强生成器
train_datagen = ImageDataGenerator(
    rescale=1. / 255,        # 归一化：将像素值从 0-255 缩放到 0-1
    shear_range=0.2,         # 随机剪切变换强度
    zoom_range=0.2,           # 随机缩放范围
    horizontal_flip=True)     # 随机水平翻转

# 仅对测试数据做归一化（不需要增强）
test_datagen = ImageDataGenerator(rescale=1. / 255)

最佳实践提示：

对于 train_datagen，我们做了各种变换，这能让模型学到“汽车翻转过来还是汽车”这样的常识。
对于 INLINECODEa1a702ba，千万不要做翻转或剪切！我们只需要做 INLINECODE8aad285f（归一化）来保持数据分布一致即可，因为我们要评估的是模型在真实情况下的表现。

现在，让我们用生成器来读取文件夹中的数据：

train_generator = train_datagen.flow_from_directory(
    train_data_dir,
    target_size=(img_width, img_height),
    batch_size=batch_size,
    class_mode=‘binary‘)  # 二分类模式

validation_generator = test_datagen.flow_from_directory(
    validation_data_dir,
    target_size=(img_width, img_height),
    batch_size=batch_size,
    class_mode=‘binary‘)

运行这段代码时，你会看到 Keras 打印出“Found 400 images…”等信息，这证明数据加载成功了。

训练模型：见证奇迹的时刻

万事俱备，只欠东风。现在我们可以调用 INLINECODE3371ded1 方法开始训练了。这里使用的是 INLINECODE05b35ffe，因为我们的数据是从生成器中流式输入的，而不是一次性全部加载到内存中。

model.fit(
    train_generator,
    steps_per_epoch=nb_train_samples // batch_size,
    epochs=epochs,
    validation_data=validation_generator,
    validation_steps=nb_validation_samples // batch_size)

参数解读：

steps_per_epoch: 告诉模型处理完多少批次算作一个 Epoch。这里我们用总样本数除以批次大小（400/16 = 25），确保每个 Epoch 都看过了所有数据。
validation_data: 在每个 Epoch 结束后，用这部分数据来验证模型效果，看它是否真的学会了识别，还是只是死记硬背。

训练过程中，你会看到类似这样的输出：

Epoch 1/10 ... loss: 0.6921 - acc: 0.5500 - val_loss: 0.6812 - val_acc: 0.6000

随着训练进行，INLINECODEe2edb85f 应该不断下降，INLINECODEe90ec044（准确率）应该不断上升。在 10 个 Epoch 结束后，你的模型准确率应该能达到 75% 甚至更高。

保存模型以便后续使用

一旦训练完成，肯定不想每次预测时都重新训练一遍。我们可以将模型结构和权重保存下来：

“INLINECODEea95082a`INLINECODE7bf1681ffrom keras.models import loadmodelINLINECODEb127a791model = loadmodel(‘carvsplanemodel.h5‘)INLINECODE50d70beabatchsizeINLINECODEdc093c80optimizer=‘adam‘INLINECODE2ea74b0cflowfromdirectoryINLINECODE7809c254.DSStoreINLINECODE2cf8e85c2x2INLINECODEea1ee8f93x3INLINECODEbc189668epochsINLINECODEa2be5dc3Dropout` 的比例，看看模型是否过拟合得更少。

迁移学习： 当你对自己训练的模型不满意时，可以尝试使用 VGG16 或 ResNet 作为特征提取器，这通常是工业界提高准确率的杀手锏。

编程是一场实践之旅，最好的学习方式就是修改代码并观察结果。现在，去试试吧，看看你的模型能不能准确识别出你喜欢的跑车！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客