朴素贝叶斯

2026年2月5日星期四 · simons · 本文共 2413 个字，预计需要阅读 5 分钟

暂无

一、朴素贝叶斯是什么？

一句话理解

朴素贝叶斯 = 贝叶斯定理 + “朴素"假设

它用来解决这样一个问题：已知一些特征，判断这个东西属于哪个类别。

生活例子

假设你是水果店老板，顾客拿来一个水果，你根据颜色、大小、形状判断它是苹果、香蕉还是橘子。

朴素贝叶斯就是教电脑做这种判断的数学方法。

二、核心思想：倒推概率

正向 vs 倒向思维

正向思维	倒向思维（贝叶斯）
已知是苹果，它有多大概率是红色？	已知是红色，它有多大概率是苹果？

朴素贝叶斯做的就是倒向思维：看到证据（特征），反推原因（类别）。

贝叶斯定理公式（别怕，拆开看）

$$P(类别|特征) = \frac{P(特征|类别) \times P(类别)}{P(特征)}$$

用中文说：

“看到这个特征后属于某类的概率” = “这类东西出现这个特征的概率” × “这类东西本身常见程度” ÷ “这个特征总体常见程度”

三、为什么叫"朴素”？

“朴素"的意思

英文是 Naive（天真的、简单的），指算法做了一个简单粗暴的假设：

假设所有特征之间完全独立，互不影响

例子说明

判断一个邮件是不是垃圾邮件，我们看：

特征1：包含"中奖"这个词
特征2：包含"免费"这个词
特征3：发件人是陌生人

实际情况：“中奖"和"免费"经常一起出现（有关联）

朴素假设：假装它们毫无关系，各自单独计算概率，最后乘起来

为什么这么做？

虽然这个假设在现实中几乎不成立，但：

计算量大大减少（不用考虑特征之间的复杂关系）
效果往往还不错（在很多场景下 surprisingly good）
需要的数据量少（适合小数据）

四、具体怎么算？

步骤1：准备训练数据

假设我们有10封邮件的历史数据：

邮件	包含"中奖”	包含"免费”	发件人陌生	是否是垃圾邮件
1	是	是	是	是
2	是	否	是	是
3	否	是	是	是
4	否	否	否	否
…	…	…	…	…

统计结果：

垃圾邮件：3封
正常邮件：7封
垃圾邮件中，含"中奖"的有2封 → 概率 = 2/3
垃圾邮件中，含"免费"的有2封 → 概率 = 2/3
垃圾邮件中，发件人陌生的有3封 → 概率 = 3/3 = 1

步骤2：来了新邮件，计算概率

新邮件：包含"中奖"、包含"免费"、发件人陌生

$$P(垃圾邮件|特征) \propto P(中奖|垃圾) \times P(免费|垃圾) \times P(陌生|垃圾) \times P(垃圾邮件)$$$$= \frac{2}{3} \times \frac{2}{3} \times 1 \times \frac{3}{10} = \frac{4}{30} = 0.133$$$$P(正常邮件|特征) \propto P(中奖|正常) \times P(免费|正常) \times P(陌生|正常) \times P(正常邮件)$$$$= \frac{1}{7} \times \frac{1}{7} \times \frac{2}{7} \times \frac{7}{10} = 很小$$

步骤3：比较大小

垃圾邮件概率：0.133
正常邮件概率：0.006

0.133 > 0.006 → 判定为垃圾邮件 ✓

五、三种常见的朴素贝叶斯

根据特征的不同类型，有三种变体：

类型	适用场景	例子
多项式朴素贝叶斯	特征是次数/个数（如词出现几次）	文本分类，统计单词出现次数
伯努利朴素贝叶斯	特征是有无（0或1）	文本分类，只看单词是否出现
高斯朴素贝叶斯	特征是连续数值	根据身高体重判断性别

六、朴素贝叶斯的优缺点

✅ 优点

优点	说明
简单快速	训练就是数数，预测就是乘除
数据需求小	几百条数据就能工作
对缺失值不敏感	某个特征缺失也能算
可解释性强	能告诉你为什么这样分类
多分类能力强	天然支持分很多类

❌ 缺点

缺点	说明
特征独立性假设太强	现实中特征往往有关联
对输入数据敏感	训练数据中没见过的特征，概率为0（需要平滑处理）
概率校准不准	输出的概率值仅供参考，不太精确

七、实际应用场景

1. 垃圾邮件过滤（最经典）

输入：邮件内容
输出：垃圾邮件 / 正常邮件
原理：统计垃圾邮件中各单词的出现频率

2. 新闻分类

自动判断新闻是体育、财经、娱乐还是科技

3. 情感分析

判断用户评论是正面还是负面
“这部电影太棒了” → 正面
“浪费钱，不好看” → 负面

4. 医学诊断

根据症状判断可能患什么病
症状：发烧、咳嗽、头痛 → 感冒概率80%，流感概率15%

5. 推荐系统

根据用户历史行为，预测喜欢什么内容

八、研究发展方向

朴素贝叶斯虽然"朴素"，但学术界一直在改进：

1. 放松独立性假设

半朴素贝叶斯：允许部分特征有关联
树增强朴素贝叶斯（TAN）：用树结构表示特征关系
贝叶斯网络：更复杂的概率图模型

2. 处理连续特征更好

传统高斯假设不一定适合，研究更好的分布估计

3. 结合深度学习

用神经网络学习特征表示，再用贝叶斯分类
处理文本、图像等复杂数据

4. 在线学习/增量学习

新数据来了，不用重新训练，直接更新概率统计

5. 不平衡数据处理

当某类样本极少时（如欺诈检测），改进算法使其更准确

九、总结：一张图看懂

看到新数据（特征）
        ↓
    分别计算
┌─────────────────┐    ┌─────────────────┐
│  属于A类的概率   │ vs │  属于B类的概率   │
│ = P(特征1|A)    │    │ = P(特征1|B)    │
│   × P(特征2|A)  │    │   × P(特征2|B)  │
│   × P(特征3|A)  │    │   × P(特征3|B)  │
│   × P(A)        │    │   × P(B)        │
└─────────────────┘    └─────────────────┘
        ↓
    哪个大就判为哪类