基於特徵映射方法

簡介

特徵映射，也稱降維，是將高維多媒體數據的特徵向量映射到一維或者低維空間的過程。在高維特徵資料庫中，高維數據存在數據冗餘。由於索引結構的性能隨著維數的增大而迅速降低，在維數大10以後，性能還不如順序掃描，形成維數災難。降維後，套用成熟的低維索引技術，以提高性能。基於特徵映射方法簡單來說是指將數據從高維空間映射到低維空間，然後用分類器進行分類，為了得到較好的分類性能。在遷移學習領域，已經有不少學者提出了不同的方法，例如潘嘉林等人提出了一種新的維度降低遷移學習方法，他通過最小化源領域數據與目標領域數據在隱性語義空間上的最大均值偏差（Maximun Mean Discrepancy），求解得到降維後的特徵空間。在該隱性空間上，不同的領域具有相同或者非常接近的數據分布，因此就可以直接利用監督學習算法訓練模型對目標領域數據進行預測。顧全泉（Quanquan Gu）等人探討了多個聚類任務的學習(這些聚類任務是相關的)，提出了一種尋找共享特徵子空間的框架。在該子空間中，各個領域的數據共享聚類中心，而且他們還把該框架推廣到直推式遷移分類學習。布利澤（Blitzer）等人提出了一種結構對應學習算法(Structural Corresponding Learning，SCL)。該算法把領域特有的特徵映射到所有領域共享的“軸”特徵，然後就在這個 “軸” 特徵下進行訓練學習。結構對應學習算法已經被用到詞性標註以及情感分析中。

特徵映射方法

基於低維投影的降維方法

主成分分析(principal component analysis，PCA)：是使用最為廣泛的線性降維方法之一，它先將數據投影到某一個主成分上，然後丟掉具有較小方差的那些維的信息，尋找具有最大方差的線性特徵集，達到降維的目的。該方法的概念簡單、計算方便，但是，沒有統一的標準來確定主成分及其數量。

投影法(projection pursuit，PP)：其基本思想是將高維數據投影到低維(一般是1～3維)子空間上，通過分析和研究投影數據以達到了解原始數據的目的。該方法最早產生於20世紀70年代初，Kruskal將數據投影到低維空間，通過極大化某個指標，以發現數據的聚類結構。聚類效果取決於索引函式的選擇和最佳化算法。該方法可有效排除噪聲數據的干擾，但是，計算量大，不適用於高度非線性數據。

基於神經網路的降維方法

自動編碼神經網路法(auto-encoder networks)：是一種前向反饋網路。該網路把高維空間的輸入向量映射到具有最少神經元的一層的激勵所表示的低維空間中，而具有最少神經元的一層的下一層再把低維表示映射到D維空間。

自組織映射法(self-organizing mapping)：對每個聚類都賦予降維後的空間中的固定位置，並根據該位置用鄰居函式來評價聚類之間的近似度。鄰居函式的值越大聚類之間的接近程度越高。根據鄰居函式值，高維數據被映射到最優聚類的位置，實現高維數據的降維。該方法能很好地用於高維數據可視化。

基於特徵映射方法

基本介紹

簡介

特徵映射方法

遷移學習

相關詞條

熱門詞條