對象識別

介紹

對象識別包括分類和檢測兩項任務，分類用於判斷一幅圖像是否包含某類對象，檢測則要求標出這些對象的位置和大小。對象識別是理解圖像和場景的關鍵，具有廣泛的套用前景，可用於 Web圖像自動標註、海量圖像搜尋、圖像內容過濾、機器人、安全監視、醫學遠程會診等多種領域。通用對象識別面臨很多困難，迄今沒有完善的解決方案，這些困難包括：(1)光照變化、視點變化、尺度變化、物體變形、遮擋、背景嘈雜等多種因素使同一物體在不同圖像中存在很大的差異；(2)同類物體之間存在較大差異，這要求識別模型即能體現同類物體之間的共性，又不能混淆相似的物體類別；(3)大量的類別增加了系統實現的難度。近幾年來，通用對象識別的研究非常活躍，新的方法不斷湧現。

對象識別過程

對象識別系統使用訓練圖像，訓練出識別模型，並利用這個模型識別新圖像中的對象，這個過程一般包括預處理、特徵提取、模型訓練和對象識別四個階段。

特徵提取

特徵提取提取圖像的亮度模式，紋理細節、形狀和輪廓等信息，包括特徵選取和特徵描述兩部分內容。

原始的訓練圖像往往需要人工進行預處理，預處理後，可從訓練圖像中提取特徵集。特徵集可以是全局特徵，體現整幅圖像的特點，也可以是局部特徵，代表圖像局部的特點。

常用的特徵有包括：

(1)Difference of Gaussians(DoG)：最早由Lowe提出，具有平移、尺度不變性，檢測速度很快；

(2)Kadir&Brady檢測子：通過圓形區域亮度直方圖的局部最大熵尋找特徵區域，能輸出穩定、少量的圓形特徵區域；

(3)多尺度Harris檢測子：具有尺度不變性，適於檢測角形區域；

(4)Hessian-Laplace類似於DoG，這兩種方法都檢測類似於元球(blob-like)的結構，但Hessian-Laplace方法在尺度一空間定位精度更高；

(5)Harris-Affine區域和Hessian-Affine區域對圖像仿射變換具有不變性。

模型訓練

不同的對象識別系統有不同的訓練方法。很多方法來源於基本的機器學習技術，如boost、Winnow、支持向量機、RVM、貝葉斯理論、高斯混合模型、EM算法、決策樹、決策樹樁等技術。訓練方法大致可分為兩大類：求異法(discriminative approach)和泛化法(generative approach)。求異法試圖在特徵空間找到一條決策邊界，將特徵矢量分類，判斷它是否屬於某類物體。滑動視窗模型常採用求異法訓練模型，SVM、決策樹、決策樹樁及boost類技術常用於求異法泛化法則儘可能多地找到某類對象的特徵，根據這些特徵出現的機率，使用貝葉斯理論、高斯混合模型判斷對象的類別。基於部件的方法常採用泛化法設定、最佳化模型參數，EM算法常用來處理部件及其之間的關係，這種方法是一種疊代估計參數的方法，它可以處理數據缺失的問題，但不能保證找到全局最大值。

對象識別

提取了訓練圖像的特徵集後，就可以利用這些特徵集訓練識別模型。識別模型有很多種，為了描述方便，本文大致把它們分成三大類，分別是基於特徵袋(bag of feature)的識別模型，基於部件(part-based)的識別模型，基於滑動窗：(sliding-windows)的識別模型。

對象識別

基本介紹

介紹

對象識別過程

特徵提取

模型訓練

對象識別

相關詞條

熱門詞條