朴素贝叶斯分类器详解

朴素贝叶斯是一种机器学习分类算法,它利用概率来预测数据点的类别。它假设所有特征彼此之间是相互独立的。朴素贝叶斯在许多现实世界的应用中表现良好,例如垃圾邮件过滤、文档分类和情感分析。

在这里:

  • 原始数据有两个类别:绿色圆圈 (y = 1) 和红色方块 (y = 2)。
  • 估算沿第一个维度的概率分布,即 P(x1 \mid y=1), \; P(x1 \mid y=2)
  • 估算沿第二个维度的概率分布,即 P(x2 \mid y=1), \; P(x2 \mid y=2)
  • 利用条件独立性结合两个维度,即 P(x \mid y) = \prod{\alpha} P(x{\alpha} \mid y)

朴素贝叶斯分类器的关键特性

朴素贝叶斯分类器背后的主要思想是利用贝叶斯定理,根据给定数据特征下不同类别的概率来对数据进行分类。它主要用于高维度的文本分类。

  • 朴素贝叶斯分类器是一个简单的概率分类器,它使用的参数数量非常少,这些参数用于构建机器学习模型,其预测速度比其他分类算法更快。
  • 它之所以被称为概率分类器,是因为它假设模型中的一个特征独立于另一个特征的存在。换句话说,每个特征都对预测有贡献,但彼此之间没有关联。
  • 朴素贝叶斯算法用于垃圾邮件过滤、情感分析、文章分类等许多领域。

为什么叫“朴素”贝叶斯?

它之所以被称为“朴素”,是因为它假设一个特征的存在不影响其他特征。名称中的“贝叶斯”部分是指它基于贝叶斯定理。

让我们考虑一个描述打高尔夫球天气条件的虚构数据集。给定天气条件,每个元组将条件归类为适合(“Yes”)或不适合(“No”)打高尔夫球。以下是我们要数据集的表格表示。

Outlook

Temperature

Humidity

Windy

Play Golf

0

Rainy

Hot

High

False

Yes

1

Rainy

Hot

High

True

No

2

Overcast

Hot

High

False

Yes

3

Sunny

Mild

High

False

No

4

Sunny

Cool

Normal

False

Yes

5

Sunny

Cool

Normal

True

No

6

Overcast

Cool

Normal

True

Yes

7

Rainy

Mild

High

False

No

8

Rainy

Cool

Normal

False

Yes

9

Sunny

Mild

Normal

False

Yes

10

Rainy

Mild

Normal

True

Yes

11

Overcast

Mild

High

True

Yes

12

Overcast

Hot

Normal

False

Yes

13

Sunny

Mild

High

True

No数据集分为两部分,即特征矩阵响应向量

  • 特征矩阵:包含数据集中所有的向量(行),其中每个向量由相关特征的值组成。在上面的数据集中,特征是‘Outlook’、‘Temperature’、‘Humidity’和‘Windy’。
  • 响应向量:包含特征矩阵每一行的类变量(预测或输出)的值。在上面的数据集中,类变量名称是‘Play golf’。

朴素贝叶斯的假设

朴素贝叶斯的基本假设是每个特征都做出:

  • 特征独立性:这意味着当我们试图对某事物进行分类时,我们假设数据中的每个特征(或信息)不影响任何其他特征。
  • 连续特征呈正态分布:如果特征是连续的,则假设其在每个类别内呈正态分布。
  • 离散特征呈多项式分布:如果特征是离散的,则假设其在每个类别内具有多项式分布。
  • 特征同等重要:假设所有特征对类别标签的预测贡献相等。
  • 无缺失数据:数据不应包含任何缺失值。

贝叶斯定理简介

贝叶斯定理提供了一种反转条件概率的原则性方法。其定义如下:

> P(y

X) = \frac{P(X

y) \cdot P(y)}{P(X)}

其中:

  • P(y|X):后验概率,即在特征 X 下类别 y 的概率
  • P(X|y):似然度,即在类别 y 下特征 X 的概率
  • P(y):类别 y 的先验概率
  • P(X):边际似然度或证据

朴素贝叶斯的工作原理

1. 术语

考虑一个分类问题(例如根据天气预测某人是否会打高尔夫球)。那么:

  • y 是类别标签(例如打高尔夫球为“Yes”或“No”)
  • X = (x1, x2, …, x_n) 是特征向量(例如 Outlook、Temperature、Humidity、Windy)

数据集中的一个样本行:

> X = \text{(Rainy, Hot, High, False)}, \quad y = \text{No}

这代表了:

在天气为雨天、炎热、湿度大且无风的情况下,某人不会打高尔夫球的概率是多少?

2. 贝叶斯定理的应用

为了找到这个概率,我们可以使用贝叶斯定理。我们的目标是找到对应于最大概率的类别标签。我们需要计算 P(Yes

X) 和 P(No

X) 并选择其中较大的一个。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如需转载,请注明文章出处豆丁博客和来源网址。https://shluqu.cn/51180.html
点赞
0.00 平均评分 (0% 分数) - 0