Tobit模型:基本概念,Tobit模型的最大似然估計,Tobit模型的半參數估計

Tobit模型(tobit model)是指因變數雖然在正值上大致連續分布，但包含一部分以正機率取值為0的觀察值的一類模型。比如，在任一給定年份，有相當數量家庭的醫療保險費用支出為0，因此，雖然年度家庭醫療保險費用支出的總體分布散布於一個很大的正數範圍內，但在數字0上卻相當集中。它也被稱為截尾回歸模型或刪失回歸模型(censored regression model)，屬於受限因變數(limited dependent variable)回歸的一種。受限因變數指因變數的觀測值是連續的，但是受到某種限制，得到的觀測值並不完全反映因變數的實際狀態。主要包括斷尾回歸模型(truncated regression model)、Tobit模型(tobit model)和樣本選擇模型(sample selection model)等。

基本介紹

中文名：Tobit模型
外文名：Tobit Model
別稱：截尾回歸模型、刪失回歸模型
所屬學科：數學（統計學）

基本概念,Tobit模型的最大似然估計,Tobit模型的半參數估計,Tobit模型回歸係數的含義,Tobit模型的假設檢驗,

基本概念

經典的Tobit 模型是James Tobin在分析家庭耐用品的支出情況時對Probit 回歸進行的一種推廣(Tobit一詞源自Tobin’S Probit)，其後又被擴展成多種情況，Amemiya將其歸納為Ⅰ型到Ⅴ型Tobit模型。標準的Ⅰ型Tobit回歸模型如下：

式(1)中，

是潛在應變數，潛變數大於0時被觀察到，取值為

，小於等於0時在0處截尾，

是自變數向量，

是係數向量，誤差項

獨立且服從常態分配：

。該模型也可以作如下簡化表達：

用最小二乘法估計含有截尾數據的模型參數會產生偏差，且估計量是不一致的。在一定假設下可通過最大似然法估計其參數。

Tobit模型的最大似然估計

當Tohit模型的誤差項滿足正態性和方差齊性時，即式(1)中，

，潛變數

滿足經典線性模型假定，服從具有線性條件均值的等方差常態分配。在該假設條件下，Tobit模型中對於正值即

，給定x下y的密度與給定x下

的密度一樣；對於

的觀測值，由於u/a服從標準常態分配並獨立於丁，則

因此如果

是來自總體的一次隨機抽取，則在給定

下

的密度為：

式中，

是標準正態密度函式。從中得到每個觀測i的對數似然函式:

通過將上式對i求和,就可以得到容量為n的一個隨機樣本的對數似然函式，即

該式由兩部分組成，一部分對應於沒有限制的觀測值，是經典回歸模型部分；一部分對應於受到限制的觀測值。這是一個非標準的似然函式，它實際上是離散分布與連續分布的混合。通過對上式極大化，就可以得到

和

的最大似然估計值。該對數似然函式的求解比較棘手，因為Tobit 模型的對數似然函式對原參數

和

不是全局凹的(global concavity)。對該似然函式進行再參數化，可使得估計過程更為簡單，並且再參數化後的對數似然函式是全局凹的。令

和

對數似然函式變為

對上式極大化，由於Hessian矩陣始終是負正定的，所以不管初始值是什麼，只要疊代過程有一個解，則這個解就是似然函式的全局最大化解。套用牛頓法求解時較為簡單，且收斂速度快，得到

和

的估計量後，再利用

和

求得原參數估計量。這些估計量的漸近協方差矩陣可以從估計量

中得到。

Tobit模型的半參數估計

Tobit模型最大似然估計的一致性依賴於其潛變數模型中誤差項的正態性和方差齊性，在誤差項存在序列相關(serial correlation)的情況下最大似然估計仍可以保持一致性，但其異方差和非常態分配會導致

和

的不一致估計。檢驗Tobit模型中誤差項是否服從常態分配的方法有Hausman檢驗、拉格朗日乘數檢驗和條件矩檢驗等。不滿足常態分配時可選用替代的其他分布，如指數分布、對數常態分配和威布爾分布。但是假定一些其他的特定分布並不能有效的解決問題而且有可能使問題更糟，此時可採用一些穩健的半參數方法。

刪失最小絕對離差估計CLAD(censored least absolute deviations)是Tobit模型的一種半參數估計方法，該方法假定

的中位數為0，即

，這也意味著

，如果額外假設誤差項有關於0為中心的對稱分布，那么條件中位數和均數就是一致的。對於經典線性模型，最小絕對離差估計LAD(Least Absolute Deviations)通過最小化誤差項的絕對值之和來獲得回歸係數的估計值(最小一乘估計)。在Tobit 模型中只能觀測到截取的因變數y所以要對經典的LAD估計作一些改進。對任何連續隨機變數Z，可以通過選擇合適的b作為Z 分布的中位數從而最小化函式,

。如果

的中位數是回歸自變數和未知參數的已知函式

，那么

的樣本條件中位數可以通過選擇適當的

來獲得，而這個

使得函式

在

處最小化。對於截取回歸模型來說，很容易證明

的中位數函式

，所以CLAD估計的目標函式為

由於該函式是連續的，最小值總是存在，但最小化可能產生不唯一的

值。CLAD估計具有一致性，並且有漸近的常態分配，由於最小化的函式不是連續可微的，所以該估計量的計算較複雜。Buchinsky 建議用疊代線性規划算法ILPA(the iterative linear programming algorithm)來獲得CLAD 的估計量。由於CLAD 估計允許誤差項可以為更廣泛的分布，包括非對稱分布，當Tobit模型的某些有關分布的假設不成立時，,蒙特卡羅模擬證據表明它表現良好，對異方差也穩健。Deaton指出當有異方差性時，小樣本情況下，CLAD估計有大的標準差，而似然估計在小樣本中儘管有偏倚，但它的標準差較小。所以對於小樣本來說似然估計是比較好的，而CLAD估計隨著樣本含量的增大比較適用。