樸素貝葉斯與垃圾郵件分類


垃圾郵件識別問題,也即對給定樣本(包含垃圾郵件,非垃圾郵件)判斷是否為垃圾郵件,根據貝葉斯定理:


⎧⎩⎨⎪⎪⎪⎪⎪⎪p(y=1|x)=p(y=1,x)p(x)p(y=0|x)=p(y=0,x)p(x)⇒p(y=1|x)p(y=0|x)=p(y=1,x)p(y=0,x)=p(y=1)p(x|y=1)p(y=0)p(x|y=0)


然後根據樸素貝葉斯的屬性間的獨立性假設可進一步分解為:


p(y=1|x)p(y=0|x)=p(y=1)∏ip(xi|y=1)p(y=0)∏ip(xi|y=0)


對 p(xi|y=1) 根據貝葉斯公式,又可得:


p(xi|y=1)=p(xi,y=1)p(y=1)


便可將全部不易計算的概率轉化為容易計算的形式。

0 個評論

要回覆文章請先登錄註冊