表征學習

簡介

機器學習任務，例如分類問題，通常都要求輸入在數學上或者在計算上都非常便於處理，在這樣的前提下，特徵學習就應運而生了。然而，在我們現實世界中的數據例如圖片，視頻，以及感測器的測量值都非常的複雜，冗餘並且多變。那么，如何有效的提取出特徵並且將其表達出來就顯得非常重要。傳統的手動提取特徵需要大量的人力並且依賴於非常專業的知識。同時，還不便於推廣。這就要求特徵學習技術的整體設計非常有效，自動化，並且易於推廣。

特徵學習可以被分為兩類：監督的和無監督的，類似於機器學習。

在監督特徵學習中，被標記過的數據被當做特徵用來學習。例如神經網路，多層感知器，(監督)字典學習。
在無監督特徵學習中，未被標記過的數據被當做特徵用來學習。例如(無監督)字典學習，獨立成分分析，自動編碼，矩陣分解，各種聚類分析及其變形。

監督特徵學習

監督特徵學習就是從被標記的數據中學習特徵。大致有一下幾種方法。

監督字典學習

總體來說，字典學習是為了從輸入數據獲得一組的表征元素，使每一個數據點可以（近似的）通過對表征元素加權求和來重構。字典中的元素和權值可以通過最小化表征誤差來得到。通過L1正則化可以讓權值變得稀疏（例，每一個數據點的表征只有幾個非零的權值）。

監督字典學習利用輸入數據的結構和給定的標籤（輸出）來最佳化字典。例如，2009年Mairal等人提出的一種監督字典學習方案被套用在了分類問題上。這個方案的最佳化目標包括最小化分類誤差，表征誤差，權值的1範數（L1正則化）和分類器參數的2範數。有監督的字典學習可以被視為一個三層神經網路（一層隱含層），第一層（輸入層）到第二層（隱含層）是表征學習，第二層到第三層（輸出）是分類器的參數回歸。

神經網路

神經網路是通過多層由內部相連的節點組成的網路的一個學習算法。它的命名是受到神經系統的啟發，它的每一個節點就像神經系統里的神經元，而每一條邊就像一條突觸。神經網路裡面的每一條邊都有對應的權值，而整個網路則定義運算法則將輸入數據轉換成為輸出。神經網路的網路函式通過權值來刻畫輸入層跟輸出層之間的關係。通過適當的調整網路函式，可以儘量最小化損耗的同時解決各種各樣的機器學習任務。

無監督特徵學習

主成分分析

在多元統計分析中，主成分分析（英語：Principal components analysis，PCA）是一種分析、簡化數據集的技術。主成分分析經常用於減少數據集的維數，同時保持數據集中的對方差貢獻最大的特徵。這是通過保留低階主成分，忽略高階主成分做到的。這樣低階成分往往能夠保留住數據的最重要方面。但是，這也不是一定的，要視具體套用而定。由於主成分分析依賴所給數據，所以數據的準確性對分析結果影響很大。

主成分分析由卡爾·皮爾遜於1901年發明，用於分析數據及建立數理模型。其方法主要是通過對協方差矩陣進行特徵分解，以得出數據的主成分（即特徵向量）與它們的權值（即特徵值）。PCA是最簡單的以特徵量分析多元統計分布的方法。其結果可以理解為對原數據中的方差做出解釋：哪一個方向上的數據值對方差的影響最大？換而言之，PCA提供了一種降低數據維度的有效辦法；如果分析者在原數據中除掉最小的特徵值所對應的成分，那么所得的低維度數據必定是最最佳化的（也即，這樣降低維度必定是失去訊息最少的方法）。主成分分析在分析複雜數據時尤為有用，比如人臉識別。

表征學習

基本介紹

簡介

監督特徵學習

監督字典學習

神經網路

無監督特徵學習

主成分分析

獨立成分分析

相關詞條

熱門詞條