香農熵

基本定義

對於任意一個隨機變數 X，它的熵定義如下：

變數的不確定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。

實例

我們如何來量化度量信息量呢？以世界盃賽為例。大家都很關心誰會是冠軍。假如我錯過了看世界盃，賽後我問一個知道比賽結果的觀眾“哪支球隊是冠軍”？他不願意直接告訴我，而要讓我猜，並且我每猜一次，他要收一元錢才肯告訴我是否猜對了，那么我需要付給他多少錢才能知道誰是冠軍呢? 我可以把球隊編上號，從 1 到 32，然後提問： “冠軍的球隊在 1-16 號中嗎?” 假如他告訴我猜對了，我會接著問： “冠軍在 1-8 號中嗎?” 假如他告訴我猜錯了，我自然知道冠軍隊在 9-16 中。這樣最多只需要五次，我就能知道哪支球隊是冠軍。所以，誰是世界盃冠軍這條訊息的信息量只值五塊錢。

此時可能會發現我們實際上可能不需要猜五次就能猜出誰是冠軍，因為象巴西、德國、義大利這樣的球隊得冠軍的可能性比日本、美國、韓國等隊大的多。因此，我們第一次猜測時不需要把 32 個球隊等分成兩個組，而可以把少數幾個最可能的球隊分成一組，把其它隊分成另一組。然後我們猜冠軍球隊是否在那幾隻熱門隊中。我們重複這樣的過程，根據奪冠機率對剩下的候選球隊分組，直到找到冠軍隊。這樣，我們也許三次或四次就猜出結果。因此，當每個球隊奪冠的可能性（機率）不等時，“誰世界盃冠軍”的信息量的信息量比五比特少。香農指出，它的準確信息量應該是

其中，

分別是這 32 個球隊奪冠的機率。香農把它稱為“信息熵” (Entropy)，一般用符號 H 表示，單位是比特。可以推算當 32 個球隊奪冠機率相同時，對應的信息熵等於五比特。

香農熵(Shannon entropy)在生物信息領域基因表達分析中也有廣泛的套用，如一些或一個基因在不同組織材料中表達情況己知，但如何確定這些基因是組織特異性表達，還是廣泛表達的，那我們就來計算這些基因在N個樣本中的香農熵，結果越趨近於log2(N)，則表明它是一個越廣泛表達的基因，結果越趨近於0則表示它是一個特異表達的基因。

數學分析

當然，香農不是用錢，而是用 “比特”（bit）這個概念來度量信息量。一個比特是一位二進制數，計算機中的一個位元組是八個比特。在上面的例子中，這條訊息的信息量是五比特。（如果有朝一日有六十四個隊進入決賽階段的比賽，那么“誰世界盃冠軍”的信息量就是六比特，因為我們要多猜一次。）讀者可能已經發現, 信息量的比特數和所有可能情況的對數函式 log 有關。 (

,

。）

計算

以計算一本五十萬字的中文書平均有多少信息量為例。常用的漢字（一級二級國標）大約有 7000 字。假如每個字等機率，那么大約需要 13 個比特（即 13 位二進制數）表示一個漢字。但漢字的使用是不平衡的。實際上，前 10% 的漢字占文本的 95% 以上。因此，即使不考慮上下文的相關性，而只考慮每個漢字的獨立的機率，那么，每個漢字的信息熵大約也只有 8-9 個比特。如果再考慮上下文相關性，每個漢字的信息熵只有5比特左右。所以，一本五十萬字的中文書，信息量大約是 250 萬比特。如果用一個好的算法壓縮一下，整本書可以存成一個 320KB 的檔案。如果我們直接用兩位元組的國標編碼存儲這本書，大約需要 1MB 大小，是壓縮檔案的三倍。這兩個數量的差距，在資訊理論中稱作“冗餘度”（redundancy)。需要指出的是我們這裡講的 250 萬比特是個平均數，同樣長度的書，所含的信息量可以差很多。如果一本書重複的內容很多，它的信息量就小，冗餘度就大。

香農熵

基本介紹

基本定義

實例

數學分析

計算

與熱熵的關係

意義

相關詞條

熱門詞條