主成分分析

主成分分析

主成分分析(Principal Component Analysis,PCA), 是一種統計方法。通過正交變換將一組可能存在相關性的變數轉換為一組線性不相關的變數,轉換後的這組變數叫主成分。

在實際課題中,為了全面分析問題,往往提出很多與此有關的變數(或因素),因為每個變數都在不同程度上反映這個課題的某些信息。

主成分分析首先是由K.皮爾森(Karl Pearson)對非隨機變數引入的,爾後H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和方差來衡量。

基本介紹

原理,套用學科,內容,

原理

在用統計分析方法研究多變數的課題時,變數個數太多就會增加課題的複雜性。人們自然希望變數個數較少而得到的信息較多。在很多情形,變數之間是有一定的相關關係的,當兩個變數之間有一定相關關係時,可以解釋為這兩個變數反映此課題的信息有一定的重疊。主成分分析是對於原先提出的所有變數,將重複的變數(關係緊密的變數)刪去多餘,建立儘可能少的新變數,使得這些新變數是兩兩不相關的,而且這些新變數在反映課題的信息方面儘可能保持原有的信息。
主成分分析
設法將原來變數重新組合成一組新的互相無關的幾個綜合變數,同時根據實際需要從中可以取出幾個較少的綜合變數儘可能多地反映原來變數的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上用來降維的一種方法。

套用學科

主成分分析作為基礎的數學分析方法,其實際套用十分廣泛,比如人口統計學數量地理學分子動力學模擬、數學建模、數理分析等學科中均有套用,是一種常用的多變數分析方法。

內容

基本思想
主成分分析是設法將原來眾多具有一定相關性(比如P個指標),重新組合成一組新的互相無關的綜合指標來代替原來的指標。
主成分分析,是考察多個變數間相關性一種多元統計方法,研究如何通過少數幾個主成分來揭示多個變數間的內部結構,即從原始變數中導出少數幾個主成分,使它們儘可能多地保留原始變數的信息,且彼此間互不相關.通常數學上的處理就是將原來P個指標作線性組合,作為新的綜合指標。
最經典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來P個指標的信息,再考慮選取F2即選第二個線性組合,為了有效地反映原來信息,F1已有的信息就不需要再出現在F2中,用數學語言表達就是要求Cov(F1, F2)=0,則稱F2為第二主成分,依此類推可以構造出第三、第四,……,第P個主成分。
步驟
Fp = a1i*ZX1 + a2i*ZX2 + …… + api*ZXp
其中a1i, a2i, ……,api(i=1,……,m)為X的協方差陣Σ的特徵值所對應的特徵向量,ZX1, ZX2, ……, ZXp是原始變數經過標準化處理的值,因為在實際套用中,往往存在指標的量綱不同,所以在計算之前須先消除量綱的影響,而將原始數據標準化,本文所採用的數據就存在量綱影響[註:本文指的數據標準化是指Z標準化]。
A = (aij)p×m = (a1,a2,…am),Rai = λiai,R為相關係數矩陣,λi、ai是相應的特徵值和單位特徵向量,λ1 ≥ λ2 ≥ …≥ λp ≥ 0 。
進行主成分分析主要步驟如下:
1. 指標數據標準化SPSS軟體自動執行);
2. 指標之間的相關性判定;
3. 確定主成分個數m;
4. 主成分Fi表達式;
5. 主成分Fi命名。
主成分分析法的計算步驟主成分分析法的計算步驟
主成分分析法的基本原理
主成分分析法是一種降維的統計方法,它藉助於一個正交變換,將其分量相關的原隨機向量轉化成其分量不相關的新隨機向量,這在代數上表現為將原隨機向量的協方差陣變換成對角形陣,在幾何上表現為將原坐標系變換成新的正交坐標系,使之指向樣本點散布最開的p 個正交方向,然後對多維變數系統進行降維處理,使之能以一個較高的精度轉換成低維變數系統,再通過構造適當的價值函式,進一步把低維系統轉化成一維系統。
主成分分析的原理是設法將原來變數重新組合成一組新的相互無關的幾個綜合變數,同時根據實際需要從中可以取出幾個較少的總和變數儘可能多地反映原來變數的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上處理降維的一種方法。主成分分析是設法將原來眾多具有一定相關性(比如P個指標),重新組合成一組新的互相無關的綜合指標來代替原來的指標。通常數學上的處理就是將原來P個指標作線性組合,作為新的綜合指標。最經典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Va(rF1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來P個指標的信息,再考慮選取F2即選第二個線性組合,為了有效地反映原來信息,F1已有的信息就不需要再出現再F2中,用數學語言表達就是要求Cov(F1,F2)=0,則稱F2為第二主成分,依此類推可以構造出第三、第四,……,第P個主成分。
主成分分析的主要作用
概括起來說,主成分分析主要由以下幾個方面的作用。
1.主成分分析能降低所研究的數據空間的維數。即用研究m維的Y空間代替p維的X空間(m<p),而低維的Y空間代替高維的x空間所損失的信息很少。即:使只有一個主成分Yl(即 m=1)時,這個Yl仍是使用全部X變數(p個)得到的。例如要計算Yl的均值也得使用全部x的均值。在所選的前m個主成分中,如果某個Xi的係數全部近似於零的話,就可以把這個Xi刪除,這也是一種刪除多餘變數的方法。
2.有時可通過因子負荷aij的結論,弄清X變數間的某些關係。
3.多維數據的一種圖形表示方法。我們知道當維數大於3時便不能畫出幾何圖形,多元統計研究的問題大都多於3個變數。要把研究的問題用圖形表示出來是不可能的。然而,經過主成分分析後,我們可以選取前兩個主成分或其中某兩個主成分,根據主成分的得分,畫出n個樣品在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量中的地位,進而還可以對樣本進行分類處理,可以由圖形發現遠離大多數樣本點的離群點。
4.由主成分分析法構造回歸模型。即把各主成分作為新自變數代替原來自變數x做回歸分析
5.用主成分分析篩選回歸變數。回歸變數的選擇有著重的實際意義,為了使模型本身易於做結構分析、控制和預報,好從原始變數所構成的子集合中選擇最佳變數,構成最佳變數集合。用主成分分析篩選變數,可以用較少的計算量來選擇量,獲得選擇最佳變數子集合的效果。

相關詞條

熱門詞條

聯絡我們