什么是组归一化？

2026-02-05 11:44:35 0条评论 3次阅读 0人点赞

组归一化 (Group Normalization, 简称 GN) 是由 Yuxin Wu 和 Kaiming He 在 2018 年提出的一种技术。它解决了批归一化 (Batch Normalization) 的一些局限性，特别是在处理高分辨率图像或视频处理任务中常见的小批量数据时。

与批归一化不同，后者沿批次维度对特征进行归一化，而 GN 将输入通道划分为较小的组，并独立计算每一组的均值和方差。这种方法确保了无论批量大小如何，归一化都是一致的，使其在目标检测等常见小批量的高分辨率图像处理任务中特别有效。

通过在组内进行归一化，GN 增强了神经网络的训练，即使在批量大小不一致或很小的情况下也是如此。它调整每个组的特征，计算它们的均值和方差，并使用可学习的参数细化结果，从而使网络能够更有效地学习并获得更好的性能。

1 组归一化是如何工作的？
2 与其他归一化技术的比较
3 组归一化的好处
4 组归一化的应用
5 组归一化的局限性

组归一化是如何工作的？

组归一化将特征通道划分为 G 个组，并在每个组内分别计算用于归一化的均值和方差。这种方法确保了归一化独立于批量大小，并专注于特征通道的结构。

让我们将神经网络层的输入特征图表示为：

x \in \mathbb{R}^{N \times C \times H \times W}

其中：

N 是批量大小。
C 是通道数。
H 和 W 是空间维度（高度和宽度）。

GN 将 C 个通道划分为 G 个组，每个组包含 C/G 个通道。使用以下步骤分别对每个组进行归一化：

计算均值：对于每个组 g，计算特征的均值：

ug = \frac{1}{m} \sum{i \in g} x_i

其中 m = \frac{C}{G} \cdot H \cdot W 是组中元素的总数，i \in g 是组 g 中元素的索引。

计算方差：对于同一组 g，计算方差：\sigmag^2 = \frac{1}{m} \sum{i \in g} (xi – \mug)^2
归一化：使用计算出的均值和方差对特征进行归一化：\hat{x}i = \frac{xi – \mug}{\sqrt{\sigmag^2 + \epsilon}}

其中 \epsilon 是为了数值稳定性而添加的一个小常数。

缩放和平移：归一化后，应用可学习的参数 \gamma (scale/缩放) 和 \beta (shift/平移)：

yi = \gamma \hat{x}i + \beta

与其他归一化技术的比较

归一化技术

描述

—

批归一化

使用整个批次的统计数据进行归一化，在小批量情况下可能不稳定。

层归一化

对单个样本的所有通道进行归一化，非常适合序列模型。

实例归一化

分别对样本的每个通道进行归一化，适用于风格迁移等任务。

组归一化

对每个样本内的通道组进行归一化，使其在各种模型中灵活有效。!<a href="https://media.geeksforgeeks.org/wp-content/uploads/20250114183648606652/What-is-Group-Normalization.jpg">What-is-Group-Normalization

组归一化的好处

对批量大小的灵活性：GN 不依赖于批量大小，这与严重依赖批次统计数据的批归一化不同。这使得 GN 在内存限制或计算资源限制批量大小的场景中特别有用。

增强模型训练：通过跨组对数据进行归一化，GN 允许更稳定的训练动态，并减少内部协变量偏移——即网络激活的分布在训练期间发生变化的现象。

优化分布式训练：GN 计算包含在每个样本内的组的统计数据，消除了分布式设置中不同处理器之间通信的需要。这简化了在多个 GPU 或服务器上进行模型训练的复杂性。

适用于各种数据类型：无论是图像、视频，甚至是序列数据，组归一化都能通过适应每个组的独特统计属性，提供一致的性能提升。

组归一化的应用

目标检测：GN 广泛用于目标检测模型，因为这些模型中常见小批量数据。

语义分割：需要详细空间理解的任务受益于 GN 的空间独立归一化。

强化学习：在 RL 中，批量通常很小，GN 被证明是 BN 的一个强大的替代方案。

组归一化的局限性

较高的计算成本：将通道划分为组并随后的计算增加了计算负载，尤其是在大型模型中。

超参数调整：确定最佳的组数量 (G) 需要针对具体任务进行微调，这可能会增加实验的复杂性。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。如需转载，请注明文章出处豆丁博客和来源网址。https://shluqu.cn/27754.html

点赞分享



打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

0.00 平均评分 (0% 分数) - 0 票

< 上一篇

下一篇 >

相关文章美国1G带宽/1T流量高速vps $17.99/年

Async Hooks in Node.js：2026年全链路追...

R语言进阶指南：从 median() 函数看2026年...

深入解析 C# 中的 Console.Read() 方法：...

构建坚实的起点：深入解析 HTML5 样板代码...

2026年项目管理风险深度指南：从范围蔓延...

菱形：定义、性质、公式及示例

3D图形启蒙：从几何基础到代码实现的立体...

深入解析 Go 语言 Testing 包：从入门到精...

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案