如何在 R 语言中高效计算闵可夫斯基距离：从原理到实战

2026-02-02 00:14:17 0条评论 1次阅读 0人点赞

欢迎来到这篇关于 R 语言距离度量的深度指南！作为一名数据科学家或统计分析师，你一定知道，衡量数据点之间的相似性或差异性是机器学习算法的核心。而在众多的距离度量方法中，闵可夫斯基距离（Minkowski Distance）因其灵活性和通用性，占据着举足轻重的地位。

在本文中，我们将深入探讨如何在 R 编程语言中计算闵可夫斯基距离。我们将不仅仅满足于调用函数，而是会从数学原理出发，探讨其背后的逻辑，并一起编写自定义函数，同时也会挖掘 R 语言内置函数的强大功能。无论你是在做 K-近邻（KNN）分类，还是进行聚类分析，这篇文章都会为你提供实用的见解和代码示例。

1 什么是闵可夫斯基距离？
2 方法一：构建自定义函数（从零开始）
3 方法二：利用 R 内置的 dist() 函数
4 进阶应用：多元数据集的距离矩阵
5 性能优化与最佳实践
6 总结

什么是闵可夫斯基距离？

在开始编写代码之前，让我们先建立直观的理解。闵可夫斯基距离并不是单一的某种距离，而是欧几里得距离和曼哈顿距离的广义形式。想象一下，你在 N 维空间中，想要测量两个点之间的距离。闵可夫斯基距离定义了一个通用的“尺子”，通过调整参数，我们可以改变这把尺子的度量方式。

数学定义

简单来说，闵可夫斯基距离是 N 维空间中两个向量之间的距离度量。它的数学公式如下：

$$ D(X, Y) = (\sum{i=1}^{n}

xi – y_i

^p)^{1/p} $$

这里，参数 $p$ 是一个非常关键的整数，它决定了距离的具体形态：

当 p = 1 时： 它变成了曼哈顿距离。想象你在城市街区开车，只能走网格状的街道，不能穿楼而过，这就是曼哈顿距离。
当 p = 2 时： 这是我们最熟悉的欧几里得距离，也就是两点之间的直线距离。
当 p 趋近于无穷大时： 它被称为切比雪夫距离，即各个坐标差值的最大值。

为什么它如此重要？

你可能会问，为什么要关心这种广义的距离？在机器学习和数据挖掘中，闵可夫斯基距离被广泛用于计算样本之间的差异。特别是在以下算法中，它是不可或缺的组件：

K-近邻算法 (KNN)： 分类新样本时，我们需要找到“最近”的邻居。
K-均值聚类： 聚类过程中需要不断计算点到簇中心的距离。
学习向量量化 (LVQ) 和自组织映射 (SOM)。

通过调整 $p$ 值，我们可以根据具体的数据特征和业务需求，优化模型的准确性。例如，在高维数据中，有时曼哈顿距离（p=1）的效果反而比欧几里得距离（p=2）更好，这就是闵可夫斯基距离参数化的价值所在。

方法一：构建自定义函数（从零开始）

为了深入理解其工作原理，让我们先不使用 R 的内置函数，而是亲手实现一个计算闵可夫斯基距离的函数。这有助于我们看清计算过程中的每一个细节。

逻辑拆解

给定两个向量 INLINECODEea358478 和 INLINECODEf8e7a3e3，我们需要完成以下步骤：

检查长度： 确保两个向量长度一致（或者我们处理不一致的情况）。
计算差值： 对应元素相减，取绝对值。
计算幂： 将差值的绝对值提升到 $p$ 次方。
求和与开方： 将所有结果相加，然后对总和开 $1/p$ 次方。

代码实现

下面是一个完整的 R 脚本，展示了如何实现这一逻辑。为了让你看得更清楚，我在代码中添加了详细的注释。

# =====================================================
# R 程序：演示如何通过自定义函数计算闵可夫斯基距离
# =====================================================

# 定义自定义函数：calculateMinkowskiDistance
# 输入：vect1 (第一个向量), vect2 (第二个向量), p (阶数)
# 输出：闵可夫斯基距离数值
calculateMinkowskiDistance <- function(vect1, vect2, p) {
  
  # 初始化结果变量为 0
  # 这里的变量命名要有意义，answer 存储累加结果
  answer <- 0
  
  # 检查向量长度是否一致，不一致则截取最小长度
  min_length <- min(length(vect1), length(vect2))
  
  # 使用 for 循环遍历向量的每一个元素
  # 注意：R 语言中循环虽然直观，但在极大向量上效率不如向量化操作
  for (index in 1:min_length) { 
    # 计算对应位置元素的绝对差值
    diff_val <- abs(vect1[index] - vect2[index])
    
    # 将差值提升到 p 次方，存入临时变量
    temp <- diff_val ^ p
    
    # 累加到 answer 变量中
    answer <- answer + temp
  }
  
  # 循环结束后，对总和 answer 进行 (1/p) 次方运算
  # 这是公式的最后一步
  final_distance <- answer ^ (1 / p) 
  
  # 返回计算好的距离值
  return(final_distance) 
}

# ---------------------------------------------
# 实战测试部分
# ---------------------------------------------

# 初始化第一个向量
vect1 <- c(1, 3, 5, 7, 9)

# 初始化第二个向量
vect2 <- c(2, 4, 6, 8, 10)

# --- 场景 1：p = 1 (曼哈顿距离) ---
p_val <- 1
dist_p1 <- calculateMinkowskiDistance(vect1, vect2, p_val)
print(paste("当 p =", p_val, "时，闵可夫斯基距离为:", dist_p1))

# --- 场景 2：p = 2 (欧几里得距离) ---
p_val <- 2
dist_p2 <- calculateMinkowskiDistance(vect1, vect2, p_val)
print(paste("当 p =", p_val, "时，闵可夫斯基距离为:", dist_p2))

# --- 场景 3：p = 3 (高阶距离) ---
p_val <- 3
dist_p3 <- calculateMinkowskiDistance(vect1, vect2, p_val)
print(paste("当 p =", p_val, "时，闵可夫斯基距离为:", dist_p3))

# --- 场景 4：p 值很大的情况 ---
# 当 p 很大时，最大差值的分量将主导结果
p_val <- 10
dist_p10 <- calculateMinkowskiDistance(vect1, vect2, p_val)
print(paste("当 p =", p_val, "时，闵可夫斯基距离为:", dist_p10))

代码深度解析

当我们运行上述代码时，你会发现一些有趣的现象：

数值变化： 随着 $p$ 的增加，距离值通常会减小，因为我们在对较大的数开更小的根（$1/p$ 变小），同时维度间的差异权重也在发生变化。
数据类型： 在这里，我们没有显式地使用 as.integer()，因为 R 会自动处理数值类型。但在处理极大数时，数值溢出是一个潜在风险，特别是在计算高次幂时。

方法二：利用 R 内置的 `dist()` 函数

虽然自定义函数很有助于理解原理，但在实际的生产环境或数据分析中，我们强烈建议使用 R 语言内置的 dist() 函数。它经过了高度优化，运行速度更快，且代码更简洁。

dist() 函数非常强大，它可以计算六种不同的距离度量，其中自然包括闵可夫斯基距离。它的设计初衷是处理矩阵或数据框，能够一次性计算所有行之间的距离（距离矩阵）。

语法详解

dist(x, method = "euclidean", diag = FALSE, upper = FALSE, p = 2)

关键参数说明：

INLINECODEea7edf17: 必须是一个数值矩阵或数据框。每一行代表一个观察对象，每一列代表一个特征。这一点非常重要，如果你传入的是两个分离的向量，必须先用 INLINECODE30e65464（按行绑定）将它们组合起来。
INLINECODE1aec1cd3: 这里必须指定为 INLINECODE3c9496a2。默认通常是 "euclidean"。
p: 指定闵可夫斯基公式中的阶数 $p$。如果不指定，默认为 2。
INLINECODE9c728558: 逻辑值。如果为 INLINECODE4f54de79，则打印距离矩阵的对角线（即点到自身的距离，通常为0）。
INLINECODE44604b95: 逻辑值。如果为 INLINECODEe14c183f，则打印上三角矩阵。默认只打印下三角，因为距离矩阵是对称的。

示例 1：基础用法与矩阵组合

让我们看看如何用这个内置函数重写上面的逻辑。

# ------------------------------------------------
# R 程序：演示如何使用内置 dist() 函数
# ------------------------------------------------

# 初始化两个向量
vect_a <- c(1, 3, 5, 7)
vect_b <- c(2, 4, 6, 8)

# 关键步骤：使用 rbind() 将向量组合成矩阵
# dist() 函数期望输入是一个类似数据集的结构（行是样本）
data_matrix <- rbind(vect_a, vect_b)

# 打印矩阵结构以便查看
print("这是我们构建的矩阵：")
print(data_matrix)

# 计算 p = 2 时的闵可夫斯基距离
ans_p2 <- dist(data_matrix, method = "minkowski", p = 2)

print("--------------------------------")
print(paste("计算结果（p=2）：", ans_p2))

# 让我们试试 p = 1 的情况
ans_p1 <- dist(data_matrix, method = "minkowski", p = 1)
print(paste("计算结果（p=1）：", ans_p1))

输出解读：

输出结果通常是一个简化的 dist 对象。对于两个向量，你会看到一个数值。如果有三个向量（矩阵有3行），你会看到一个下三角矩阵，显示了 1-2, 1-3, 2-3 之间的距离。

示例 2：处理不等长向量的实战技巧

在实际工作中，你经常面临“脏数据”的情况。例如，两个特征向量的长度不一致，直接计算会报错。INLINECODEbc6bfa55 函数严格要求矩阵结构，这意味着如果直接 INLINECODE92939102 两个不等长的向量，R 会报错或者强制循环补齐，导致数据错位。

解决方案：数据对齐（填充）

我们需要手动将较短的向量“补齐”。通常我们用 0 来填充，因为假设缺失的维度数值为 0，不会产生额外的差值贡献（$

x – 0

^p =

^p$，但这取决于你的业务逻辑是否允许这种假设）。

# ------------------------------------------------
# 场景：处理不等长向量的距离计算
# ------------------------------------------------

# 模拟真实数据：vect1 有 6 个维度，vect2 只有 4 个维度
vect_long <- c(10, 20, 30, 40, 50, 60)  # 长度 6
vect_short <- c(12, 22, 32, 42)          # 长度 4

# 检查长度差
len_diff  0) {
  vect_short_padded <- c(vect_short, rep(0, len_diff))
} else {
  # 或者反过来，视具体需求而定
  vect_short_padded <- vect_short 
}

# 现在两者长度一致，可以构建矩阵了
final_matrix <- rbind(vect_long, vect_short_padded)

# 计算 p = 3 的闵可夫斯基距离
# 注意：这计算的是 (10-12)^3 + ... + (60-0)^3 的结果开根号
ans <- dist(final_matrix, method = "minkowski", p = 3)

print("不等长向量处理后的距离计算结果 (p=3)：")
print(ans)

重要提示： 填充 0 是一种处理缺失数据的策略，但必须谨慎。在几何上，这意味着你将那个较短向量的点投射在了长向量的超平面上。如果在你的业务场景中，缺失数据不应被视为 0，你可能需要先进行数据标准化或使用其他插值方法。

进阶应用：多元数据集的距离矩阵

让我们看一个更贴近数据分析实战的例子。假设我们有一个包含多个样本（行）和多个特征（列）的数据集，我们需要计算所有样本两两之间的闵可夫斯基距离。

# ------------------------------------------------
# 实战：计算数据集中所有样本的距离矩阵
# ------------------------------------------------

# 创建一个模拟数据集：5 个样本，3 个特征
set.seed(123) # 设置随机种子以保证结果可复现
# 生成 5 行 3 列的随机矩阵，范围 1-100
data_df <- as.data.frame(matrix(round(runif(15, 1, 100)), nrow = 5))
colnames(data_df) <- c("Feature_A", "Feature_B", "Feature_C")
rownames(data_df) <- c("User_1", "User_2", "User_3", "User_4", "User_5")

print("我们的模拟数据集：")
print(data_df)

# 使用 dist 函数计算所有用户之间的 p=3 的距离
dist_matrix <- dist(data_df, method = "minkowski", p = 3)

print("用户之间的闵可夫斯基距离矩阵 (p=3)：")
print(dist_matrix)

# 如果你想以矩阵格式（方形）查看结果，可以使用 as.matrix()
square_dist_matrix <- as.matrix(dist_matrix)
print("方阵形式的距离矩阵：")
print(square_dist_matrix)

在这个例子中，我们计算了 5 个用户之间的相似度。输出的 INLINECODE0ebf51af 对象非常紧凑，只显示下三角。如果你需要直接访问某个具体的距离值（例如 User1 和 User3 之间的距离），将其转换为 INLINECODE6bbf9c47 后操作会更加方便，比如 square_dist_matrix["User_1", "User_3"]。

性能优化与最佳实践

当我们处理大规模数据集时，计算性能变得至关重要。

1. 向量化操作 vs. 循环

在文章开头，我们展示了 INLINECODE5d0c7cf8 循环的方法。虽然它在逻辑上清晰，但在 R 中，INLINECODEbafb7666 循环的效率相对较低。我们可以利用 R 的向量化特性来优化自定义函数，而不必依赖 dist()，从而获得更快的执行速度。

优化后的自定义函数：

# 优化版：利用向量化操作
fast_minkowski <- function(v1, v2, p) {
  # 直接对向量整体操作，避免循环
  # 这里的 abs, ^, sum 都是向量化的，底层由 C 语言实现，速度极快
  return(sum(abs(v1 - v2) ^ p) ^ (1/p))
}

# 测试
vec_test1 <- 1:1000
vec_test2 <- 2:1001

# 这个速度会比 for 循环快很多
# system.time(fast_minkowski(vec_test1, vec_test2, 2))

2. 关于 p 值的选择

选择正确的 $p$ 值是效果的关键。

高维诅咒： 在极高维的数据中（例如文本分类），欧几里得距离（p=2）往往会失去区分度，此时尝试曼哈顿距离（p=1）往往能带来更好的效果。
数值稳定性： 当 $p$ 很大时，计算 $ xi – yi
^p$ 可能会导致数值溢出（变成 Infinity）。在计算前对数据进行归一化或标准化是一个好的习惯。

总结

在这篇文章中，我们全面地探索了闵可夫斯基距离在 R 语言中的计算方法。我们从它的数学定义出发，理解了它如何通过 $p$ 值统一了曼哈顿距离和欧几里得距离。

我们学习了两种主要的方法：

自定义函数： 适合理解底层逻辑和原理，我们推荐使用向量化的写法来保证性能。
内置 dist() 函数： 处理矩阵和多对多距离的首选方法，代码简洁且功能强大。

此外，我们还探讨了处理不等长向量、解释距离矩阵以及针对大规模数据的性能优化建议。掌握这些工具和技巧，将帮助你在数据预处理、特征工程和模型构建（如 KNN 和 K-Means）的过程中更加得心应手。

希望这篇指南能对你的项目有所帮助！现在，打开你的 RStudio，试试调整不同的 $p$ 值，看看你的数据会展现出怎样不同的形态吧！

投稿给我们	如何建站？
vps是什么？	如何安装宝塔？
如何通过博客赚钱？	便宜wordpress托管方案
免费wordpress主题	这些都是免费方案

豆丁博客

如何在 R 语言中高效计算闵可夫斯基距离：从原理到实战

什么是闵可夫斯基距离？

数学定义

为什么它如此重要？

方法一：构建自定义函数（从零开始）

逻辑拆解

代码实现

代码深度解析

方法二：利用 R 内置的 `dist()` 函数

语法详解

示例 1：基础用法与矩阵组合

示例 2：处理不等长向量的实战技巧

进阶应用：多元数据集的距离矩阵

性能优化与最佳实践

1. 向量化操作 vs. 循环

2. 关于 p 值的选择

总结

相关文章美国1G带宽/1T流量高速vps $17.99/年

如何在 R 语言中高效计算闵可夫斯基距离：从原理到实战

什么是闵可夫斯基距离？

数学定义

为什么它如此重要？

方法一：构建自定义函数（从零开始）

逻辑拆解

代码实现

代码深度解析

方法二：利用 R 内置的 dist() 函数

语法详解

示例 1：基础用法与矩阵组合

示例 2：处理不等长向量的实战技巧

进阶应用：多元数据集的距离矩阵

性能优化与最佳实践

1. 向量化操作 vs. 循环

2. 关于 p 值的选择

总结

相关文章美国1G带宽/1T流量高速vps $17.99/年

方法二：利用 R 内置的 `dist()` 函数