Top-coded

在計量經濟學和統計學中，top-coded data(最高標準化數據)是一種對某些觀測值較高的數據的處理方式，具體是指對超過設定數據值上限（如下例中的30000，為一個最高標準）的觀測值（如id為4,5的兩個數據）進行刪失處理。比如在家計調查時，部分家庭收入特別高，部分特別低。如果設定一個最高標準（如收入中位數的10倍），將最高標準之上的收入均記為最高標準收入，然後將樣本再標準化。這一處理過程稱為“top-coding”。當然這種處理，會造成對數據估計的不利影響，因為我們無法得知被處理過的最高組的具體分布。

此概念在中文中沒有唯一對應術語，因此可理解為“最高標準化過程”，也有字面直譯“頂部編碼”，但不能直觀表達其含義。此外，也可理解為，“最高標準收入”，“最高化處理，“最高標準過程”。

一個明了的例子Top-coding of income at $30,000（將超過30000以上的財富數據，top-coding為30000）：

id age actual wealth wealth variable in data set

編碼年齡實際財富財富變數（可理解為經過top-coding處理後的數據）

1 26 24,778 24,778

2 32 26,750 26,750

3 45 26,780 26,780

4 64 35,469 30000+

5 27 43,695 30000+

top-coding是分析數據集時存在一個一般性問題。如，在CPS（Current Population Survey）調查中，top-coding使得難以估計收入不平等的程度，因為高收入分布的具體情況被隱去。為了幫助克服這個問題，CPS提供了被處理的頂部數據組的平均值。

調查數據在發布給公眾之前經常被這樣處理，從而保持被訪者的匿名性。例如，如果一份調查報告了一個自我識別財富為790億美元的受訪者，那么實際上它不會是匿名的，因為人們會知道該受訪者是比爾·蓋茨的機會很大。該方法也可以用來防止可能錯誤的離群值被公布。

底部編碼也是類似的，例如，低於零的量報告為零。top-coding發生在對於以組記錄數據時，例如，如果年齡範圍按照分組來報告：0-20,21-50,50-99,100和100以上。這裡我們只知道有多少人的年齡超過100，而不是他們的分布。調查數據的製作者有時會發布被刪失數據的平均值，以幫助數據使用者估算最高組的無偏見估計。

Top-coded

基本介紹

相關詞條

熱門詞條