Awezome

  • 主页
  • 随笔
所有文章 友链 关于我

Awezome

  • 主页
  • 随笔

分类算法学习笔记:朴素贝叶斯及垃圾过滤

2016-05-08

贝叶斯方法源于贝叶斯生前为解决一个“逆概”问题写的一篇文章。假设袋子里面有N个白球,M个黑球,摸一个球是黑球的概率是多少?如果反过来看:如果我们事先并不知道袋子里面黑白球的比例,而是随意摸出一个球知道颜色之后,那么求袋子里面的黑白球的比例。类比一下,我们可以知道我们自己邮箱里的垃圾邮件是哪些,也可以通过概率知道哪些词经常出现在垃圾邮件里,那么当收到一封邮件时,我们可以根据邮件里的词,从求这封新的邮件是垃圾邮件的概率。

贝叶斯算法通过已知的P(A|B),P(A),和P(B)三个概率计算P(B|A)发生的概率,其中

  • S:S是样本空间,是所有可能事件的总和。
  • P(A):是样本空间S中A事件发生的概率。
  • P(B):是样本空间S中B事件发生的概率。
  • P(A∩B):是样本空间S中A事件和B事件同时发生的概率。
  • P(A|B):是条件概率,是B事件已经发生时A事件发生的概率,P(A|B)=P(A∩B)/P(B)。

贝叶斯公式 P(B|A)=P(A|B)*P(B)/P(A)

在贝叶斯公式中,每一种概率都有一个特定的名字:

  • P(B)是”先验概率”(Prior probability)。
  • P(A)是”先验概率”(Prior probability)。
  • P(A|B)是已知B发生后A的条件概率,叫做似然函数(likelihood)。
  • P(B|A)是已知A发生后B的条件概率,是我们要求的值,叫做后验概率。
  • P(A|B)/P(A)是调整因子,也被称作标准似然度(standardised likelihood)。

通过出现的关键词对垃圾邮件的计算公式如下:
P(垃圾邮件|出现关键词)=P(出现关键词|垃圾邮件)*P(垃圾邮件)/P(出现关键词)

赏

谢谢你请我吃糖果

  • Algorithm

扫一扫,分享到微信

Modern PHP : 闭包和匿名函数
Bitmap 算法解释与应用
© 2014-2019 Awezome
Hexo Theme Zilia by Awezome