『数据挖掘、机器学习』 常用算法思路、原理、公式、优缺点

来源:互联网 发布:2017年淘宝双十一 编辑:程序博客网 时间:2024/06/09 23:03

1、朴素贝叶斯分类算法

思路:通过计算在已知样本特征 X 下,该样本被分类为 Ci 类的概率,并取取得最大的概率的类为该样本所属分类

假设:假设每个特征相互独立

公式:

已知 X=(x1,x2,...,xn), y=(C1,C2,...,Cm)Xn维向量,ym 维向量

P(Ci|X)=P(Ci)nk=1P(xk|Ci)mi=1P(Ci)P(X|Ci)(1)

(1) 式中的分母由于对于每个 (1) 式来说都是相同,可以在实际计算中省略不使用

另外 P(X|Ci) ,由于 X=(x1,x2,...,xn) ,故 P(X|Ci) 可写成 P(x1,x2,...,xn|Ci)

P(x1,x2,...,xn|Ci) 又可以写成 nk=1P(xk|Ci) 故 (1) 式可改写为:

P(Ci|X)=P(Ci)nk=1P(xk|Ci)mi=1P(Ci)nk=1P(xk|Ci)(2)

由 (2) 式的分母可以明显看出对于每一个样本 X 来说,分母都是相同的。

优点:方法简单、准确率高、计算速度快

缺点:假设每个特征相互独立的假设过强,不太符合实际;需要知道先验概率;样本数据量要比较多,这样得到的后验概率才比较准确

0 0