AprioriTidList

AprioriTidList算法

AprioriTid算法比Apriori算法有很大的改善,並且適用於大型資料庫。但是它必須通過多次搜尋交易數據集得到所有的候選項集的支持度。雖然數據都是在本地記憶體中存儲，但如果數據集的數量很大的話，運算量還是很大，而且對於每一個候選項都要通過搜尋所有的事務條目來計算支持度，搜尋的結果不能重複利用，造成資源的浪費。AprioTidList算法通過鍊表結構，存儲包含每個候選項的所有條目的ID，計算K層候選項的支持度時，只要比較k-1層候選項鍊表中有幾個相同的條目ID就可以得到結果，算法描述如下：

(1) L′1 = {1-itemsets along with their tidlist}

(2) L1={large l-itemsets}

(3) For(k=2; L'k-1≠?; k++) do begin

(4) Lk= ?; L'k= ?

(5) For all itemsets l1∈L'k-1 do begin

(6)for all itemsets l2∈L'k-1 do begin

(7) if l1[1]=l2[1] ∧l1[2]=l2[2] ∧…∧l1[k-1]<l2[k-1] then

(8) C'.itemsets = l[1].l[2]…l[k-1].l[k]

(9) C'.tidlist = l1.tidlist∩l2.tidlist

(10) C'.count = { C'.tidlist}

(11) If(C'.count ≥ minsup) then

(12) L'k = L'k ∪{ C'}

(13) C.itemsets = C'.itemsets

(14) C.count = C'.count

(15) Lk = Lk ∪{ C}

(16)End

(17) End

(18) End

(19) 答案= ;

該算法與Apriori和AprioriTid的不同之處在於計算候選項集支持度的方法不同:對每一個候選項集定義一個叫做tidlist的結構；項集l的tidlist由那些包含l的交易的TID組成,用l.tidlist表示項集l的tidlist。l-項集的tidlist可通過搜尋交易數據集得到,候選k-項集的tidlist可由產生該候選k-項集的那兩個(k-1)-項集的tidlist求交集得到。

AprioTidList與AprioriTid算法一樣,只搜尋交易數據集一次。它與AprioriTid算法有兩個區別。一個區別是計算候選項集支持度所用數據結構（鍊表）存儲的信息不同。在AprioriTid中,鍊表的每個節點為〈TID ,{Xk}〉,其中Xk是出現在標識為TID的交易中的高頻k-項集；在算法AprioTidList中,鍊表的每個節點為〈l ,tidlist〉,通過對兩個頻繁項集的tidlist求交集,即可得到候選項集的支持度。在AprioriTid中,需要對整個鍊表進行搜尋才能得到某個候選項集的支持度。因此,用算法AprioTidList得到頻繁項集所需時間要比AprioriTid算法所需時間短。AprioTidList與AprioriTid算法的另一個區別在於候選項集的產生辦法,在Apriori算法中,需要結合和修剪兩個步驟,而在AprioTidList算法中只需結合步驟。

AprioriTidList

AprioriTidList算法

算法套用於多維關聯規則的挖掘

相關詞條

熱門詞條