Top-coded

統計學和計量經濟學中的一種數據處理方法,中文中沒有對應專業術語,在下文的例子中可以得到直觀理解。

基本介紹

  • 中文名:頂端編碼,最高標準收入,最高化處理,最高標準過程
  • 外文名:top-coded,top-coding
在計量經濟學和統計學中,top-coded data(最高標準化數據)是一種對某些觀測值較高的數據的處理方式, 具體是指對超過設定數據值上限(如下例中的30000,為一個最高標準)的觀測值(如id為4,5的兩個數據)進行刪失處理比如在家計調查時,部分家庭收入特別高,部分特別低。如果設定一個最高標準(如收入中位數的10倍),將最高標準之上的收入均記為最高標準收入,然後將樣本再標準化。這一處理過程稱為“top-coding”。當然這種處理,會造成對數據估計的不利影響,因為我們無法得知被處理過的最高組的具體分布。
此概念在中文中沒有唯一對應術語,因此可理解為“最高標準化過程”,也有字面直譯“頂部編碼”,但不能直觀表達其含義。此外,也可理解為,“最高標準收入”,“最高化處理,“最高標準過程”。
一個明了的例子Top-coding of income at $30,000(將超過30000以上的財富數據,top-coding為30000):
id age actual wealth wealth variable in data set
編碼 年齡 實際財富 財富變數(可理解為經過top-coding處理後的數據)
1 26 24,778 24,778
2 32 26,750 26,750
3 45 26,780 26,780
4 64 35,469 30000+
5 27 43,695 30000+
top-coding是分析數據集時存在一個一般性問題。如,在CPS(Current Population Survey)調查中,top-coding使得難以估計收入不平等的程度,因為高收入分布的具體情況被隱去。為了幫助克服這個問題,CPS提供了被處理的頂部數據組的平均值。
調查數據在發布給公眾之前經常被這樣處理,從而保持被訪者的匿名性。 例如,如果一份調查報告了一個自我識別財富為790億美元的受訪者,那么實際上它不會是匿名的,因為人們會知道該受訪者是比爾·蓋茨的機會很大。該方法也可以用來防止可能錯誤的離群值被公布。
底部編碼也是類似的,例如,低於零的量報告為零。top-coding發生在對於以組記錄數據時,例如,如果年齡範圍按照分組來報告:0-20,21-50,50-99,100和100以上。這裡我們只知道有多少人的年齡超過100,而不是他們的分布。 調查數據的製作者有時會發布被刪失數據的平均值,以幫助數據使用者估算最高組的無偏見估計。

相關詞條

熱門詞條

聯絡我們