朴素贝叶斯是一种机器学习分类算法,它利用概率来预测数据点的类别。它假设所有特征彼此之间是相互独立的。朴素贝叶斯在许多现实世界的应用中表现良好,例如垃圾邮件过滤、文档分类和情感分析。
在这里:
- 原始数据有两个类别:绿色圆圈 (y = 1) 和红色方块 (y = 2)。
- 估算沿第一个维度的概率分布,即 P(x1 \mid y=1), \; P(x1 \mid y=2)
- 估算沿第二个维度的概率分布,即 P(x2 \mid y=1), \; P(x2 \mid y=2)
- 利用条件独立性结合两个维度,即 P(x \mid y) = \prod{\alpha} P(x{\alpha} \mid y)
朴素贝叶斯分类器的关键特性
朴素贝叶斯分类器背后的主要思想是利用贝叶斯定理,根据给定数据特征下不同类别的概率来对数据进行分类。它主要用于高维度的文本分类。
- 朴素贝叶斯分类器是一个简单的概率分类器,它使用的参数数量非常少,这些参数用于构建机器学习模型,其预测速度比其他分类算法更快。
- 它之所以被称为概率分类器,是因为它假设模型中的一个特征独立于另一个特征的存在。换句话说,每个特征都对预测有贡献,但彼此之间没有关联。
- 朴素贝叶斯算法用于垃圾邮件过滤、情感分析、文章分类等许多领域。
为什么叫“朴素”贝叶斯?
它之所以被称为“朴素”,是因为它假设一个特征的存在不影响其他特征。名称中的“贝叶斯”部分是指它基于贝叶斯定理。
让我们考虑一个描述打高尔夫球天气条件的虚构数据集。给定天气条件,每个元组将条件归类为适合(“Yes”)或不适合(“No”)打高尔夫球。以下是我们要数据集的表格表示。
Outlook
Humidity
Play Golf
—
—
—
Rainy
High
Yes
Rainy
High
No
Overcast
High
Yes
Sunny
High
No
Sunny
Normal
Yes
Sunny
Normal
No
Overcast
Normal
Yes
Rainy
High
No
Rainy
Normal
Yes
Sunny
Normal
Yes
Rainy
Normal
Yes
Overcast
High
Yes
Overcast
Normal
Yes
Sunny
High
No数据集分为两部分,即特征矩阵和响应向量。
- 特征矩阵:包含数据集中所有的向量(行),其中每个向量由相关特征的值组成。在上面的数据集中,特征是‘Outlook’、‘Temperature’、‘Humidity’和‘Windy’。
- 响应向量:包含特征矩阵每一行的类变量(预测或输出)的值。在上面的数据集中,类变量名称是‘Play golf’。
朴素贝叶斯的假设
朴素贝叶斯的基本假设是每个特征都做出:
- 特征独立性:这意味着当我们试图对某事物进行分类时,我们假设数据中的每个特征(或信息)不影响任何其他特征。
- 连续特征呈正态分布:如果特征是连续的,则假设其在每个类别内呈正态分布。
- 离散特征呈多项式分布:如果特征是离散的,则假设其在每个类别内具有多项式分布。
- 特征同等重要:假设所有特征对类别标签的预测贡献相等。
- 无缺失数据:数据不应包含任何缺失值。
贝叶斯定理简介
贝叶斯定理提供了一种反转条件概率的原则性方法。其定义如下:
> P(y
y) \cdot P(y)}{P(X)}
其中:
- P(y|X):后验概率,即在特征 X 下类别 y 的概率
- P(X|y):似然度,即在类别 y 下特征 X 的概率
- P(y):类别 y 的先验概率
- P(X):边际似然度或证据
朴素贝叶斯的工作原理
1. 术语
考虑一个分类问题(例如根据天气预测某人是否会打高尔夫球)。那么:
- y 是类别标签(例如打高尔夫球为“Yes”或“No”)
- X = (x1, x2, …, x_n) 是特征向量(例如 Outlook、Temperature、Humidity、Windy)
数据集中的一个样本行:
> X = \text{(Rainy, Hot, High, False)}, \quad y = \text{No}
这代表了:
在天气为雨天、炎热、湿度大且无风的情况下,某人不会打高尔夫球的概率是多少?
2. 贝叶斯定理的应用
为了找到这个概率,我们可以使用贝叶斯定理。我们的目标是找到对应于最大概率的类别标签。我们需要计算 P(Yes
X) 并选择其中较大的一个。