關聯式規則

關聯式規則(Association Rules, AR),又稱關聯規則,是數據挖掘的一個重要課題,用於從大量數據中挖掘出有價值的數據項之間的相關關係。

介紹,分類,算法,

介紹

關聯規則解決的常見問題如:“如果一個消費者購買了產品A,那么他有多大機會購買產品B?”以及“如果他購買了產品C和D,那么他還將購買什麼產品?”正如大多數數據挖掘技術一樣,關聯規則的任務在於減少潛在的大量雜亂無章的數據,使之成為少量的易於觀察理解的靜態資料。
關聯規則一個經典的實例是購物籃分析(Market Basket Analysis)。超市對顧客的購買記錄資料庫進行關聯規則挖掘,可以發現顧客的購買習慣,例如,購買產品X的同時也購買產品Y,於是,超市就可以調整貨架的布局,比如將X產品和Y產品放在一起,增進銷量。

分類

根據關聯規則所處理的值的類型
如果考慮關聯規則中的數據項是否出現,則這種關聯規則是布爾關聯規則(Boolean association rules)。例如上面的例子。
如果關聯規則中的數據項是數量型的,這種關聯規則是數量關聯規則(quantitative association rules)。例如年齡("20-25")購買("網球拍"),年齡是一個數量型的數據項。在這種關聯規則中,一般將數量離散化(discretize)為區間。
根據關聯規則所涉及的數據維數
如果關聯規則各項只涉及一個維,則它是單維關聯規則(single-dimensional association rules),例如購買("網球拍")購買("網球")只涉及“購買”一個維度。
如果關聯規則涉及兩個或兩個以上維度,則它是多維關聯規則(multi-dimensional association rules),例如年齡("20-25")購買("網球拍")涉及“年齡”和“購買”兩個維度。
根據關聯規則所涉及的抽象層次
如果不涉及不同層次的數據項,得到的是單層關聯規則(single-level association rules)。
在不同抽象層次中挖掘出的關聯規則稱為廣義關聯規則(generalized association rules)。例如年齡("20-25")購買("HEAD網球拍")和年齡("20-25")購買("網球拍")是廣義關聯規則,因為"HEAD網球拍"和"網球拍"屬於不同的抽象層次。

算法

Apriori 算法
Apriori算法所使用的前置統計量包括了:
最大規則物件數:規則中物件組所包含的最大物件數量,在微軟關聯規則參數為Maximum_Itemset_Size
最小支援:規則中物件或是物件組必頇符合的最低案例數,在微軟關聯規則參數為Minimum_Support。
最小信心水平:計算規則所必須符合的最低信心水平門檻,在微軟關聯規則參數為Minimum_Probability。
F-P算法

相關詞條

熱門詞條

聯絡我們