一、Apriori演算法簡介:
關聯規則挖掘是資料挖掘領域的熱點,關聯規則反映一個物件與其他物件之間的相互依賴關系,如果多個物件之間存在-定的關聯關系,那么一個物件可以通過其他物件進行預測,
關聯規則挖掘一般可分成兩個步驟:
①找出所有支持度大于等于最小支持度閾值的頻繁項集,
②由頻繁模式生成滿足可信度閾值的關聯規則,
二、基本概念:
1、事物和項:
資料挖掘用到的基本資料集記為D,它是由事務構成的,- -般多存盤于事務資料庫中,表示為D={t1, t2,..,tm,.., tq},tk(k=1,2,..,. n)稱為事務(Transaction) ,每一個事務可再細分,表示為tk={i1,i2,.,. in, .,. ip}, im(m=1, 2, .,. p)稱為項(item),即事務是由若干個項組成的集合,每個事務可以用唯一的識別符號事務編號TID來標識,設I={i1,i2, .,. ip} 是D中全體資料項組成的集合,I的任意子集X稱為D中的項集(itemset) ,若項集中項的個數為k,稱為k項集(k-itemset),頻繁項集是指出現次數較多的項集,
| TID | 商品 |
| 001 | 豆奶,萵苣 |
| 002 | 萵苣,啤酒,尿布,甜菜 |
| 003 | 豆奶,尿布,啤酒,橙汁 |
| 004 | 萵苣,豆奶,尿布,啤酒 |
| 005 | 萵苣,豆奶,尿布,橙 |
2、關聯規則:
若X,Y均為項集,且XcI, YcI,并且x∩Y= 0,用蘊含式X=>Y表示一個關聯規則,它表示某些項(X項集) 在一個事務中的出現,可推匯出另一些項(Y項集)在同一事務中也出現,這里,“=>” 稱為“關聯”操作,X稱為關聯規則的前提,Y稱為關聯規則的結果,
3、支持度:
支持度表示該資料項在事務中出現的頻度,資料項集 X的支持度support(X)是D中包含X的事務數量與D的總事務數量之比,如下公式所示,
關聯規則X=>Y的支持度等于項集X∪Y的支持度,如下公式所示,
Support(X=>Y)= Support(X∪Y)= count(X∪Y)/ count(D)
如果support(X)大于等于用戶指定的最小支持度minsup,則稱X為頻繁專案集,否則稱X為非頻繁專案集,
| TID | 商品 |
| 001 | 豆奶,萵苣 |
| 002 | 萵苣,啤酒,尿布,甜菜 |
| 003 | 豆奶,尿布,啤酒,橙汁 |
| 004 | 萵苣,豆奶,尿布,啤酒 |
| 005 | 萵苣,豆奶,尿布,橙汁 |
Support(豆奶)=4/5=0.8
Support(尿布=>啤酒)=Support(尿布∪啤酒)=3/5=0.6
4、置信度:
置信度也稱為可信度,規則X=>Y的置信度表示D中包含X的事務中有多大可能性也包含Y,表示的是這個規則確定性的強度,記作confidence(X=>Y),通常,用戶會根據自己的挖掘需要來指定最小置信度閾值,記為minconf,
confidence(X∪Y)= support(X∪Y)/support(X)
如果資料項集X滿足support(X)>=minsup,則X是頻繁資料項集,若規則X=>Y同時滿足confidence(X=>Y)>=minconf,則稱該規則為強關聯規則,否則稱為弱關聯規則,一般由用戶給定最小置信度閾值和最小支持度閾值,發現關聯規則的任務就是從資料庫中發現那些置信度、支持度大于等于給定最小閾值的強關聯規則,
| TID | 商品 |
| 001 | 豆奶,萵苣 |
| 002 | 萵苣,啤酒,尿布,甜菜 |
| 003 | 豆奶,尿布,啤酒,橙汁 |
| 004 | 萵苣,豆奶,尿布,啤酒 |
| 005 | 萵苣,豆奶,尿布,橙汁 |
Support(豆奶)=4/5=0.8
Support(尿布=>啤酒)=Support(尿布∪啤酒)=3/5=0.6
Confidence(豆奶=>萵苣)=Support(豆奶∪萵苣)/Support(豆奶)=0.75
5、關聯規則性質:
從基本概念的定義中得到關聯規則具有如下性質:
性質1:非頻繁項集的超集一定是非頻繁的,即如果X是非頻繁項集,且X是Y的子集,則Y也是非頻繁項集,
性質2:頻繁項集的所有非空子集都必須也是頻繁的,即如果Y是頻繁的,且X∈Y,X≠?成立,則X也一定頻繁項集,
性質3:任意-個項集的支持度不小于其超集的支持度,即如果X是Y的子集,則support(X)>=support(Y),這是因為根據定義,假設項集I的支持度小于最小支持度閾值(minsup),則I不是頻繁的,如果把項A添加到I,則結果項集(AUI) 不可能比I出現更頻繁,因此,結果項集也不是頻繁的,假設事務是頻繁項集,則定得到support (I-A)>=support(I),即頻繁項集的非空項集-定是頻繁的,反之卻不可能成立,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/107829.html
標籤:其他
上一篇:vs2015+OpenCV4.0圖形文字輪廓的生成(注意:程式是64位exe,32位機器不支持運行!)
下一篇:Mybatis(一:初級)
