樸素貝葉斯
1.簡介
? 貝葉斯分類演算法是統計學中的一種概率分類方法,樸素貝葉斯分類是貝葉斯分類中最簡單的一種,其分類原理就是利用貝葉斯公式根據某特征的先驗概率計算出其后驗概率,然后選擇具有最大后驗概率作為該特征所屬的類,
? 之所以稱之為“樸素”,是因為貝葉斯分類只做最原始、最簡單的假設:所有的特征之間是相對獨立的,
2.數學基礎
2.1相對獨立
? 假設X有x1,x2,…xn個特征,P(x) = P(x1)P(x2)…P(xn)
2.2條件概率
假設有A,B兩個事件,在B事件發生的條件下,A事件發生的概率,
P ( A ∣ B ) = P ( A B ) P ( A ) P(A|B)=\frac{P(AB)}{P(A)} P(A∣B)=P(A)P(AB)?
2.3全概率公式(從原因到結果)
考察在每一種情況下事件A發生的概率,計算A的概率,
P
(
B
)
=
∑
i
=
1
n
P
(
A
i
)
P
(
B
∣
A
i
)
P(B)=\sum_{i=1}^{n} P(A_{i} )P(B|A_{i} )
P(B)=i=1∑n?P(Ai?)P(B∣Ai?)
公式表示若事件A1,A2,…,An構成一個完備事件組且都有正概率,則對任意一個事件B都有公式成立,
2.4貝葉斯公式(從結果到原因)
在事件A發生的條件下,考察每種情況出現的條件概率
P
(
A
∣
B
)
=
P
(
B
∣
A
)
P
(
A
)
P
(
B
∣
A
)
P
(
A
)
+
P
(
B
∣
A
′
P
(
A
′
)
)
P(A|B)=\frac{P(B|A)P(A)}{P(B|A)P(A)+P(B|A^{'} P(A^{'} ))}
P(A∣B)=P(B∣A)P(A)+P(B∣A′P(A′))P(B∣A)P(A)?
其中樣本空間由A和A’組成,
3.演算法原理
3.1樸素貝葉斯公式推導
由條件概率公式:
P
(
B
∣
A
)
=
P
(
A
B
)
P
(
A
)
P(B|A)=\frac{P(AB)}{P(A)}
P(B∣A)=P(A)P(AB)?
可以推匯出:
P
(
A
B
)
=
P
(
B
∣
A
)
P
(
A
)
P(AB)=P(B|A)P(A)
P(AB)=P(B∣A)P(A)
同理可得:
P
(
A
B
)
=
P
(
A
∣
B
)
P
(
B
)
P(AB)=P(A|B)P(B)
P(AB)=P(A∣B)P(B)
由于(5)和(6)相等:
P
(
B
∣
A
)
P
(
A
)
=
P
(
A
∣
B
)
P
(
B
)
P(B|A)P(A)=P(A|B)P(B)
P(B∣A)P(A)=P(A∣B)P(B)
可以推出貝葉斯公式:
P
(
A
∣
B
)
=
P
(
B
∣
A
)
P
(
A
)
P
(
B
)
P(A|B)=\frac{P(B|A)P(A)}{P(B)}
P(A∣B)=P(B)P(B∣A)P(A)?
3.2公式分析
P(A):為先驗概率,即在B事件發生之前,對A事件發生概率的預判,
P(A|B):為后驗概率,即在B事件發生之后,對A事件發生概率的重新評估,
P(B|A)/P(B):為可能性函式,是一個調整因子,使得預估概率更加接近真實概率,
所以貝葉斯公式可以表示為:后驗概率=先驗概率 * 調整因子
如果調整因子>1,則表示先驗概率被增強,事件A發生的可能性變大,
如果調整因子=1,則表示事件B對判斷事件A發生的概率沒有幫助,
如果調整因子<1,則表示先驗概率被削弱,事件A發生的可能性變小,
注意:用樸素貝葉斯演算法對案例進行分類時,主要是通過求分類目標的最大后驗概率來進行分類,由于在同種情況下貝葉斯公式的分母是相同的,所以在計算是可以將分母忽略,以減少計算,
y = a r g m a x P ( y ) ∏ i = 1 n P ( x i ∣ y ) y = argmaxP(y)\prod_{i=1}^{n} P(x_{i} |y) y=argmaxP(y)i=1∏n?P(xi?∣y)
4.案例(根據天氣情況預測出行)
已知某人的出行記錄和氣象記錄,來預判這個人是否會出行,
| 天氣 | 溫度 | 濕度 | 風 | 是否出門 |
|---|---|---|---|---|
| 雨天 | 熱 | 高 | 有風 | 出門 |
| 晴天 | 涼 | 低 | 有風 | 出門 |
| 雨天 | 適中 | 低 | 無風 | 不出門 |
| 雨天 | 涼 | 高 | 有風 | 不出門 |
| 晴天 | 熱 | 適中 | 無風 | 出門 |
| 晴天 | 熱 | 高 | 有風 | 不出門 |
我們來分析一下這個記錄:
由上述表格可知,類別一共有兩個:出門和不出門,特征一共有四個:天氣、溫度、濕度和風,
根據樸素貝葉斯模型:
P
(
A
∣
B
)
=
P
(
B
∣
A
)
P
(
A
)
P
(
B
)
P(A|B)=\frac{P(B|A)P(A)}{P(B)}
P(A∣B)=P(B)P(B∣A)P(A)?
對樸素貝葉斯進行優化:
P
(
A
∣
B
)
=
P
(
B
∣
A
)
P
(
A
)
P(A|B)=P(B|A)P(A)
P(A∣B)=P(B∣A)P(A)
將案例轉換成分類任務的運算式:
P
(
類
別
∣
特
征
)
=
P
(
類
別
)
P
(
特
征
∣
類
別
)
P(類別|特征)=P(類別){P(特征|類別)}
P(類別∣特征)=P(類別)P(特征∣類別)
我們來預測一下在雨天、熱、濕度高、無風的情況下,這個人是否出門,
通過(11)中的運算式可以得出:
P
(
出
門
∣
雨
天
/
熱
/
高
/
無
風
)
=
P
(
出
門
)
P
(
雨
天
∣
出
門
)
P
(
熱
∣
出
門
)
P
(
高
∣
出
門
)
P
(
無
風
∣
出
門
)
P(出門|雨天/ 熱/ 高/ 無風)=P(出門){P(雨天|出門)P(熱|出門)P(高|出門)P(無風|出門)}
P(出門∣雨天/熱/高/無風)=P(出門)P(雨天∣出門)P(熱∣出門)P(高∣出門)P(無風∣出門)
P ( 不 出 門 ∣ 雨 天 / 熱 / 高 / 無 風 ) = P ( 不 出 門 ) P ( 雨 天 ∣ 不 出 門 ) P ( 熱 ∣ 不 出 門 ) P ( 高 ∣ 不 出 門 ) P ( 無 風 ∣ 不 出 門 ) P(不出門|雨天/ 熱/ 高/ 無風)=P(不出門){P(雨天|不出門)P(熱|不出門)P(高|不出門)P(無風|不出門)} P(不出門∣雨天/熱/高/無風)=P(不出門)P(雨天∣不出門)P(熱∣不出門)P(高∣不出門)P(無風∣不出門)
根據表格可知:
P(出門)=0.5
P(不出門)=0.5
P(雨天|不出門)P(熱|不出門)P(高|不出門)P(無風|不出門)=4/81
P(雨天|出門)P(熱|出門)P(高|出門)P(無風|出門)=2/81
最終可得出:
P(出門|雨天/ 熱/ 高/ 無風)=1/81
P(不出門|雨天/ 熱/ 高/ 無風)=2/81
最大后驗概率為:P(不出門|雨天/ 熱/ 高/ 無風)
可以得出結論:在雨天、熱、濕度高、無風的天氣狀況下,這個人不會出門,
5.樸素貝葉斯種類
現在樸素貝葉斯演算法一共有3種:高斯樸素貝葉斯、多項式樸素貝葉斯和伯努利樸素貝葉斯,
5.1高斯樸素貝葉斯(Gaussian NB)
在處理連續資料的分類時,我們通常選用高斯樸素貝葉斯演算法,Gaussian NB就是先驗概率為高斯分布的樸素貝葉斯,假設每一個特征的資料都服從高斯分布,
P
(
X
j
=
x
j
∣
Y
=
C
k
)
=
1
2
π
σ
2
e
(
?
(
x
j
?
μ
k
)
2
2
σ
k
2
)
P(X_{j} =x_{j} |Y=C_{k} )=\frac{1}{\sqrt{2\pi \sigma ^{2} } } e^{(-\frac{(x_{j} -\mu _{k} )^{2} }{2\sigma _{k} ^{2} } )}
P(Xj?=xj?∣Y=Ck?)=2πσ2
?1?e(?2σk2?(xj??μk?)2?)
其中,Ck是Y的第k個類別,μ和σ為訓練集的均值和標準差,
5.2多項式樸素貝葉斯(Multinomial NB)
多項式樸素貝葉斯就是先驗概率為多項式分布的樸素貝葉斯,假設特征是由一個簡單多項式分布生成的,多項式分布可以描述各種型別樣本出現次數的概率,因此多項式樸素貝葉斯非常適合用于描述出現次數或者出現次數比例的特征,該模型常用于文本分類,特征值表示的是次數,公式如下:
P
(
X
j
=
x
j
l
∣
Y
=
C
k
)
=
x
j
l
+
λ
m
k
+
n
λ
P(X_{j}=x_{jl} |Y=C_{k} )=\frac{x_{jl}+\lambda }{m_{k}+n\lambda }
P(Xj?=xjl?∣Y=Ck?)=mk?+nλxjl?+λ?
其中,p(Xj=xjl|Y=Ck)是第k個類別的第j維特征的第l個取值的條件概率,mk是訓練集中輸出為第k類的樣本個數, n為資料的維度,λ是一個大于0的常數,當λ=1是,為拉普拉斯平滑,
5.3伯努利樸素貝葉斯(Bernoulli NB)
伯努利樸素貝葉斯就是先驗概率為伯努利分布的樸素貝葉斯,假設特征的先驗概率為二元博獨立分布,
P
(
X
j
=
x
j
l
∣
Y
=
C
k
)
=
x
j
l
+
λ
m
k
+
2
λ
P(X_{j}=x_{jl} |Y=C_{k} )=\frac{x_{jl}+\lambda }{m_{k}+2\lambda }
P(Xj?=xjl?∣Y=Ck?)=mk?+2λxjl?+λ?
在伯努利模型中,每個特征的取值只有True和False,在文本分類中,就是一個特征有沒有出現在一個檔案中,
5.4拉普拉斯平滑
在某個分類下, 為防止訓練集中某個特征值和某個類別未同時出現過,導致預測概率為0,所以需要進行平滑處理 ,當平滑系數為1時,為拉普拉斯平滑,
5.4總結
一般來說,如果樣本特征的分布大部分是連續值,使用高斯樸素貝葉斯會比較好,
如果樣本特征的分布大部分是多元離散值,使用多項式樸素貝葉斯比較合適,
如果樣本特征是二元離散值或者很稀疏的多元離散值,應該使用伯努利樸素貝葉斯比較合適,
6.代碼實作
6.1鳶尾花分類(高斯樸素貝葉斯)
6.1.1匯入模塊
import numpy as np
import pandas as pd
import random
6.1.2資料集匯入
dataSet =pd.read_csv('iris.txt',header = None)
dataSet.head()
6.1.3將資料集切分為訓練集和測驗集
def randSplit(dataSet, rate):
l = list(dataSet.index) #提取出索引
random.shuffle(l) #隨機打亂索引
dataSet.index = l #將打亂后的索引重新賦值給原資料集
n = dataSet.shape[0] #總行數
m = int(n * rate) #訓練集的數量
train = dataSet.loc[range(m), :] #提取前m個記錄作為訓練集
test = dataSet.loc[range(m, n), :] #剩下的作為測驗集
dataSet.index = range(dataSet.shape[0]) #更新原資料集的索引
test.index = range(test.shape[0]) #更新測驗集的索引
return train, test
6.1.4構建樸素貝葉斯分類器
def gnb_classify(train,test):
labels = train.iloc[:,-1].value_counts().index #提取訓練集的標簽種類
mean =[] #存放每個類別的均值
std =[] #存放每個類別的方差
result = [] #存放測驗集的預測結果
for i in labels:
item = train.loc[train.iloc[:,-1]==i,:] #分別提取出每一種類別
m = item.iloc[:,:-1].mean() #當前類別的平均值
s = np.sum((item.iloc[:,:-1]-m)**2)/(item.shape[0]) #當前類別的方差
mean.append(m) #將當前類別的平均值追加至串列
std.append(s) #將當前類別的方差追加至串列
means = pd.DataFrame(mean,index=labels) #變成DF格式,索引為類標簽
stds = pd.DataFrame(std,index=labels) #變成DF格式,索引為類標簽
for j in range(test.shape[0]):
iset = test.iloc[j,:-1].tolist() #當前測驗實體
iprob = np.exp(-1*(iset-means)**2/(stds*2))/(np.sqrt(2*np.pi*stds)) #正態分布公式
prob = 1 #初始化當前實體總概率
for k in range(test.shape[1]-1): #遍歷每個特征
prob *= iprob[k] #特征概率之積即為當前實體概率
cla = prob.index[np.argmax(prob.values)] #回傳最大概率的類別
result.append(cla)
test['predict']=result
acc = (test.iloc[:,-1]==test.iloc[:,-2]).mean() #計算預測準確率
print(f'模型預測準確率為{acc}')
return test
6.1.5測驗分類模型
for i in range(20):#測驗20次,對比測驗成功的概率
train,test = randSplit(dataSet,0.8)
gnb_classify(train,test)
6.2社區評論是否為侮辱類詞語(伯努利樸素貝葉斯)
6.2.1匯入numpy
import numpy as np
6.2.2創建實驗資料集
def loadDataSet():
dataSet=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
['stop', 'posting', 'stupid', 'worthless', 'garbage'],
['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']] #切分好的詞條
classVec = [0,1,0,1,0,1] #類別標簽向量,1代表侮辱性詞匯,0代表非侮辱性詞匯
return dataSet,classVec
6.2.3創建詞匯表
利用Python中的set集合特性,將詞條中重復的詞去掉,創建無詞匯重復的詞匯表,
def createVocabList(dataSet):
vocabSet = set() #創建一個空的集合
for doc in dataSet: #遍歷dataSet中的每一條言論
vocabSet = vocabSet | set(doc) #取并集
vocabList = list(vocabSet)
return vocabList
6.2.4獲得訓練集向量
根據vocabList詞匯表,將inputSet向量化,向量的每個元素為1或0.
引數說明:
? vocabList:詞匯表
? inputSet:切分好的詞條串列中的一天
回傳:
? returnVec:檔案向量
def setOfWords2Vec(vocabList, inputSet):
returnVec = [0] * len(vocabList) #創建一個其中所含元素都為0的向量
for word in inputSet: #遍歷每個詞條
if word in vocabList: #如果詞條存在于詞匯表中,則變為1
returnVec[vocabList.index(word)] = 1
else:
print(f" {word} is not in my Vocabulary!" )
return returnVec #回傳檔案向量
6.2.5生成訓練集向量串列
引數說明:
? dataSet:切分好的詞條
回傳:
? trainMat:所有的詞條向量組成的表
def get_trainMat(dataSet):
trainMat = [] #初始化向量串列
vocabList = createVocabList(dataSet) #生成詞匯表
for inputSet in dataSet: #遍歷樣本詞條中的每一條樣本
returnVec=setOfWords2Vec(vocabList, inputSet) #將當前詞條向量化
trainMat.append(returnVec) #追加到向量串列中
return trainMat
6.2.6樸素貝葉斯分類器訓練函式
引數說明:
? trainMat:訓練文本矩陣
? classVec:訓練類別標簽向量
回傳:
? p0V:非侮辱類的條件概率陣列
? p1V:侮辱類的條件概率陣列
? pAb:檔案屬于侮辱類的概率(侮辱類的先驗概率)
def trainNB(trainMat,classVec):
n = len(trainMat) #計算訓練的檔案數目
m = len(trainMat[0]) #計算每篇檔案的詞條數
pAb = sum(classVec)/n #檔案屬于侮辱類的概率
p0Num = np.ones(m) #詞條出現數初始化為1
p1Num = np.ones(m) #詞條出現數初始化為1
p0Denom = 2 #分母初始化為2
p1Denom = 2 #分母初始化為2
for i in range(n): #遍歷每一個檔案
if classVec[i] == 1: #統計屬于侮辱類的條件概率所需的資料
p1Num += trainMat[i]
p1Denom += sum(trainMat[i])
else: #統計屬于非侮辱類的條件概率所需的資料
p0Num += trainMat[i]
p0Denom += sum(trainMat[i])
p1V = np.log(p1Num/p1Denom)
p0V = np.log(p0Num/p0Denom)
return p0V,p1V,pAb #回傳屬于非侮辱類,侮辱類和檔案屬于侮辱類的概率
6.2.7樸素貝葉斯分類器函式
引數說明:
? vec2Classify:待分類的詞條陣列
? p0V:非侮辱類的條件概率陣列
? p1V:侮辱類的條件概率陣列
? pAb:檔案屬于侮辱類的概率(侮辱類的先驗概率)
回傳:
? 0:非侮辱類
? 1:侮辱類
def classifyNB(vec2Classify, p0V, p1V, pAb):
p1 = sum(vec2Classify * p1V) + np.log(pAb) #對應元素相乘
p0 = sum(vec2Classify * p0V) + np.log(1- pAb) #對應元素相乘
if p1 > p0:
return 1
else:
return 0
6.2.8樸素貝葉斯測驗函式
引數說明:
? testVec:測驗樣本
回傳:
? 測驗樣本的類別
def testingNB(testVec):
dataSet,classVec = loadDataSet() #創建實驗樣本
vocabList = createVocabList(dataSet) #創建詞匯表
trainMat= get_trainMat(dataSet) #將實驗樣本向量化
p0V,p1V,pAb = trainNB(trainMat,classVec) #訓練樸素貝葉斯分類器
thisone = setOfWords2Vec(vocabList, testVec) #測驗樣本向量化
if classifyNB(thisone,p0V,p1V,pAb)==1:
print(testVec,'屬于侮辱類') #執行分類并列印分類結果
else:
print(testVec,'屬于非侮辱類') #執行分類并列印分類結果
6.2.9測驗用例
測驗樣本1
testVec1 = ['love', 'my', 'dalmation']
testingNB(testVec1)
測驗樣本2
testVec2 = ['stupid', 'garbage']
testingNB(testVec2)
6.3多項式樸素貝葉斯
多項式樸素貝葉斯也是多用于文本處理,其原理和計算的流程和伯努利樸素貝葉斯基本一致,唯一的區別在于單詞的計數方式, 在文本處理的環節中,我們將單詞是否出現在詞組作為特征,但在多項式樸素貝葉斯中,我們將單詞在詞組中出現的次數作為特征,因此只需要更改setOfWords2Vec的函式即可,變成如下方式:
def bagOfWords2VecMN(vocabList, inputSet):
returnVec = [0] * len(vocabList)
for word in inputSet:
if word in vocabList:
returnVec[vocabList.index(word)] += 1#單詞在單詞表中每出現一次,則加1
return returnVec
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/210912.html
標籤:其他
上一篇:Zabbix告警:SQL Instance MSSQLSERVER: Could not allocate a new page
