如果样本均衡就要明确什么是Y(少数类样本为正样本)

在sklearn中存在多个朴素贝叶斯分布

Untitled

高斯朴素贝叶斯,通过假设P(xi|Y)是服从高斯分布(也就是正态分布),来估计每个特征下每个类别上的条件概率。对于每个特征下的取值,高斯朴素贝叶斯有如下公式:

Untitled

擅长的数据分布:月亮型,环形数据以及二分型数据。

多项式朴素贝叶斯MultinomialNB

假设概率分布是服从一个简单多项式分布。多项式分布来源于统计学中的多项式实验,这种实验可以具体解释为:实验包括n次重复试验,每项试验都有不同的可能结果。在任何给定的试验中,特定结果发生的概率是不变的。

伯努利朴素贝叶斯BernoulliNB

假设数据服从多元伯努利分布,并在此基础上应用朴素贝叶斯的训练和分类过程。多元伯努利分布简单来说,就是数据集中可以存在多个特征,但每个特征都是二分类的,可以以布尔变量表示,也可以表示为{0,1}或者{-1,1}等任意二分类组合。因此,这个类要求将样本转换为二分类特征向量,如果数据本身不是二分类的,那可以使用类中专门用来二值化的参数binarize来改变数据。