香農熵

香農熵

1948 年,香農提出了“信息熵”(shāng) 的概念,解決了對信息的量化度量問題。

一條信息的信息量大小和它的不確定性有直接的關係。比如說,我們要搞清楚一件非常非常不確定的事,或是我們一無所知的事情,就需要了解大量的信息。相反,如果我們對某件事已經有了較多的了解,我們不需要太多的信息就能把它搞清楚。所以,從這個角度,我們可以認為,信息量的度量就等於不確定性的多少。

基本介紹

  • 中文名:香農熵
  • 外文名:Shannon entropy
  • 實質:信息不確定性的多少
  • 提出時間:1948 年
  • 解決問題:解決了對信息的量化度量問題
  • 套用學科:通信工程、計算機科學、電子科學
基本定義,實例,數學分析,計算,與熱熵的關係,意義,

基本定義

對於任意一個隨機變數 X,它的熵定義如下:
變數的不確定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。

實例

我們如何來量化度量信息量呢?以世界盃賽為例。大家都很關心誰會是冠軍。假如我錯過了看世界盃,賽後我問一個知道比賽結果的觀眾“哪支球隊是冠軍”? 他不願意直接告訴我, 而要讓我猜,並且我每猜一次,他要收一元錢才肯告訴我是否猜對了,那么我需要付給他多少錢才能知道誰是冠軍呢? 我可以把球隊編上號,從 1 到 32, 然後提問: “冠軍的球隊在 1-16 號中嗎?” 假如他告訴我猜對了, 我會接著問: “冠軍在 1-8 號中嗎?” 假如他告訴我猜錯了, 我自然知道冠軍隊在 9-16 中。 這樣最多只需要五次, 我就能知道哪支球隊是冠軍。所以,誰是世界盃冠軍這條訊息的信息量只值五塊錢。
此時可能會發現我們實際上可能不需要猜五次就能猜出誰是冠軍,因為象巴西、德國、義大利這樣的球隊得冠軍的可能性比日本、美國、韓國等隊大的多。因此,我們第一次猜測時不需要把 32 個球隊等分成兩個組,而可以把少數幾個最可能的球隊分成一組,把其它隊分成另一組。然後我們猜冠軍球隊是否在那幾隻熱門隊中。我們重複這樣的過程,根據奪冠機率對剩下的候選球隊分組,直到找到冠軍隊。這樣,我們也許三次或四次就猜出結果。因此,當每個球隊奪冠的可能性(機率)不等時,“誰世界盃冠軍”的信息量的信息量比五比特少。香農指出,它的準確信息量應該是
其中,
分別是這 32 個球隊奪冠的機率。香農把它稱為“信息熵” (Entropy),一般用符號 H 表示,單位是比特。可以推算當 32 個球隊奪冠機率相同時,對應的信息熵等於五比特。
香農熵(Shannon entropy)在生物信息領域基因表達分析中也有廣泛的套用,如一些或一個基因在不同組織材料中表達情況己知,但如何確定這些基因是組織特異性表達,還是廣泛表達的,那我們就來計算這些基因在N個樣本中的香農熵,結果越趨近於log2(N),則表明它是一個越廣泛表達的基因,結果越趨近於0則表示它是一個特異表達的基因。

數學分析

當然,香農不是用錢,而是用 “比特”(bit)這個概念來度量信息量。 一個比特是一位二進制數,計算機中的一個位元組是八個比特。在上面的例子中,這條訊息的信息量是五比特。(如果有朝一日有六十四個隊進入決賽階段的比賽,那么“誰世界盃冠軍”的信息量就是六比特,因為我們要多猜一次。) 讀者可能已經發現, 信息量的比特數和所有可能情況的對數函式 log 有關。 (
,
。)

計算

以計算一本五十萬字的中文書平均有多少信息量為例。常用的漢字(一級二級國標)大約有 7000 字。假如每個字等機率,那么大約需要 13 個比特(即 13 位二進制數)表示一個漢字。但漢字的使用是不平衡的。實際上,前 10% 的漢字占文本的 95% 以上。因此,即使不考慮上下文的相關性,而只考慮每個漢字的獨立的機率,那么,每個漢字的信息熵大約也只有 8-9 個比特。如果再考慮上下文相關性,每個漢字的信息熵只有5比特左右。所以,一本五十萬字的中文書,信息量大約是 250 萬比特。如果用一個好的算法壓縮一下,整本書可以存成一個 320KB 的檔案。如果我們直接用兩位元組的國標編碼存儲這本書,大約需要 1MB 大小,是壓縮檔案的三倍。這兩個數量的差距,在資訊理論中稱作“冗餘度”(redundancy)。 需要指出的是我們這裡講的 250 萬比特是個平均數,同樣長度的書,所含的信息量可以差很多。如果一本書重複的內容很多,它的信息量就小,冗餘度就大。
不同語言的冗餘度差別很大,而漢語在所有語言中冗餘度是相對小的。這和人們普遍的認識“漢語是最簡潔的語言”是一致的。

與熱熵的關係

熵這一名稱並不是香農首先提出的。最先提出熵這一名稱的是物理學家,他提出的熵現在稱其為熱熵,它是熱力學系統的一個狀態函式,熱熵是物理系統無序性的量度,熱熵越大,表明物理系統可能的微觀狀態數也就越多,從微觀上看,系統就越變化多端,越沒有秩序。
香農在研究隨機變數不確定性量度時所得的式在數學模型層次上與熱熵完全相同,所以香農也把它稱作熵,現在一般稱其為信息熵或香農熵。
若把系統分子的相空間作為系統巨觀狀態的狀態空間,則按分子在相空間中的分布而求得的香農熵H與其熱熵S有如下的關係:
因此,可以認為熱熵是香農熵的一個特例,它僅僅是分子在相空間所處位置的不確定性的量度。
然而,熱熵是有量綱的,而香農熵是無量綱的,這是兩者的重大差別。

意義

對於隨機變數而言,其取值是不確定的。在做隨機試驗之前,我們只了解各取值的機率分布,而做完隨機試驗後,我們就確切地知道了取值,不確定性完全消失。這樣,通過隨機試驗我們獲得了信息,且該信息的數量恰好等於隨機變數的熵。在這個意義上,我們可以把熵作為信息的量度。

相關詞條

熱門詞條

聯絡我們