生成對抗結構

概述

生成對抗結構GAN 是Goodfellow等在2014年提出的一種生成式模型，GAN在結構上受博弈論中的二人零和博弈(即二人的利益之和為零，一方的所得正是另一方的所失)的啟發，系統由一個生成器和一個判別器構成，生成器捕捉真實數據樣本的潛在分布，並生成新的數據樣本；判別器是一個二分類器，判別輸入是真實數據還是生成的樣本，生成器和判別器均可以採用研究火熱的深度神經網路。GAN的最佳化過程是一個極小極大博弈問題，最佳化目標是達到納什均衡，使生成器估測到數據樣本的分布。

在當前的人工智慧熱潮下，GAN的提出滿足了許多領域的研究和套用需求，同時為這些領域注入了新的發展動力，GAN已經成為人工智慧學界一個熱門的研究方向，著名學者LeCun甚至將其稱為“過去十年間機器學習領域最讓人激動的點子”，圖像和視覺領域是對GAN研究和套用最廣泛的一個領域，已經可以生成數字、人臉等物體對象，構成各種逼真的室內外場景，從分割圖像恢復原圖像，給黑白圖像上色，從物體輪廓恢復物體圖像，從低解析度圖像生成高解析度圖像等。此外，GAN已經開始被套用到語音和語言處理、電腦病毒監測、棋類比賽程式等問題的研究中。

GAN的套用領域

作為一個具有“無限”生成能力的模型，GAN的直接套用就是建模，生成與真實數據分布一致的數據樣本，例如可以生成圖像、視頻等。GAN可以用於解決標註數據不足時的學習問題，例如無監督學習、半監督學習等，GAN還可以用於語音和語言處理，例如生成對話、由文本生成圖像等。

圖像和視覺領域

GAN能夠生成與真實數據分布一致的圖像，一個典型套用來自Twitter公司，Ledig等提出利用GAN來將一個低清模糊圖像變換為具有豐富細節的高清圖像。

GAN也開始用於生成自動駕駛場景，Santana等提出利用GAN來生成與實際交通場景分布一致的圖像，再訓練一個基於RNN的轉移模型實現預測的目的。GAN可以用於自動駕駛中的半監督學習或無監督學習任務，還可以利用實際場景不斷更新的視頻幀來實時最佳化GAN的生成器。

Gou等提出利用仿真圖像和真實圖像作為訓練樣本來實現人眼檢測，但是這種仿真圖像與真實圖像存在一定的分布差距。Shrivastava等提出一種基於GAN的方法(稱為SimGAN)，利用無標籤真實圖像來豐富細化仿真圖像，使得合成圖像更加真實。引入一個自正則化項來實現最小化合成誤差並最大程度保留仿真圖像的類別，同時利用加入的局部對抗損失函式來對每個局部圖像塊進行判別，使得局部信息更加豐富。

語音和語言領域

已經有一些關於GAN的語音和語言處理文章。Li等提出用GAN來表征對話之間的隱式關聯性，從而生成對話文本。Zhang等提出基於GAN的文本生成，他們用CNN作為判別器，判別器基於擬合LSTM的輸出，用矩匹配來解決最佳化問題；在訓練時，和傳統更新多次判別器參數再更新一次生成器不同，需要多次更新生成器再更新CNN判別器。SeqGAN基於策略梯度來訓練生成器G，策略梯度的反饋獎勵信號來自於生成器經過蒙特卡洛搜尋得到，實驗表明SeqGAN在語音、詩詞和音樂生成方面可以超過傳統方法。Reed等提出用GAN基於文本描述來生成圖像，文本編碼被作為生成器的條件輸入，同時為了利用文本編碼信息，也將其作為判別器特定層的額外信息輸入來改進判別器，判別是否滿足文本描述的準確率，實驗結果表明生成圖像和文本描述具有較高相關性。

生成對抗結構

基本介紹

概述

GAN的套用領域

圖像和視覺領域

語音和語言領域

GAN的意義和優點

相關詞條

熱門詞條