文檔圖像處理

涉及技術

文檔圖像獲取

數位化文檔被廣泛套用於辦公自動化、數位化圖書館、工業自動化等領域。隨著科技的發展，傳統掃瞄器體積大、效率低、攜帶不方便等不足之處日益突出，而數位照相機體積小、價位低，可以很容易地攜帶並結合到手機、手提電腦以及各種網路設備中去，它還可以遠距離地對背景文字及脆弱的珍貴文檔拍照，更適用於無約束環境下的數位化操作。因此，將數位照相機引入文檔圖像分析已經引起越來越多人的關注。
Newman的調查表明，從報紙上提取段落時，基於PC攝像頭的OCR操作比基於掃瞄器的OCR操作效率高得多；Fisher等調查了在戰場上用數字攝像機替換士兵攜帶sheet-fed掃瞄器的可能性。經證實，數字攝像機能夠以200dpi拍攝整張A4文檔紙，已經達到OCR所要求的解析度。
在過去的20年中，基於攝像機的文檔分析已經有一定的套用，如自動閱讀執照、書籍雜誌分類，貨運車ID、公路掛牌、危險標誌識別等。

文檔圖像獲取中的難題

用數位照相機拍攝的文檔圖像也有新問題需要解決：當文檔表面彎曲變形時，數字相機拍到的文字及圖形圖像將會產生畸變；在掃瞄器中，也會出現這一現象。文檔圖像的變形對後續處理工作，如 OCR識別、數字文檔的版面分析、格式處理以及文檔自動化都帶來極大困難，因此必須首先通過圖像矯正的方法對這種變形文檔進行圖像恢復。
在2001年的數位化項目中，德國代表哲學家Nietzsche在Duisburg–Essen大學對創作於1865至1945年的文本文檔做了數字轉換。這次轉化的過程既複雜又耗時。很多文檔使用德國哥特體（fraktur）活字技術印刷出來，而OCR程式對fraktur活字識別不很理想，因此常常伴隨著人工修改。對於那些質量差一些的以原始影印檔案為主的文學來源，數位化過程則需要進一步的人工互動。其中陰影、傾斜和扭曲都會極大的降低 OCR識別的準確度。

處理內容

文檔圖像處理包含許多方面，下面對一些重要的技術做簡要說明。
1、圖像去色及二值化
存儲在紙上的文檔，若要輸入計算機中，首先要通過掃瞄器掃描成為數字圖像。它可以是彩色圖像，也可以是灰度圖像，或者是二值圖像，取決於掃描的具體過程。但一般文檔處理系統要處理的是灰度圖像，而且很多成熟的圖像處理算法和工具包也是針對灰度圖像的。在進入識別階段時，識別引擎一般是針對二值圖像的。因此，我們必須對輸入的圖像進行處理，將其二值化。
圖像的二值化處理就是將圖像上的像素點的灰度值設定為0或255，也就是將整個圖像呈現出明顯的黑白效果。
將256亮度等級的灰度圖像通過適當的閥值選取而獲得仍然可以反映圖像整體和局部特徵的二值化圖像。在數字圖像處理中，二值圖像占有非常重要的地位。首先，圖像的二值化有利於圖像的進一步處理，使圖像變得簡單，且數據量減小，能凸顯出感興趣的目標輪廓。其次，要進行二值圖像的處理與分析，首先要把灰度圖像二值化，得到二值化圖像。
在我們所研究的文檔圖像處理這一特定領域中，圖像的二值化一般是指將灰度圖像轉化為只包含黑、白兩個灰度的二值圖像。文檔圖像可以看作是由文字、背景、圖片三類對象組成，而我們最關心的是文字區域二值化後的結果。
圖像的這種轉換必然會引起信息丟失，因此採用什麼樣的算法能夠最大限度地保留識別時必需的信息（如字元的連通性），去掉不必要的背景信息和噪聲，並且執行時間在實際可接受的範圍內，是人們一直以來努力研究的問題。
2、傾斜檢測與校正
文檔處理系統要求的處理對象是工整的文檔圖像，或者傾斜角度已知，否則許多對圖像的操作，例如投影分析，圖像分割等就無法進行。顯然，掃描進計算機的文檔圖像無法保證一定是正的，因此需要利用傾斜檢測和校正的方法對其進行處理。經常採用的傾斜角度檢測的方法有：基於文本行的檢測方法，投影輪廓分析方法，和Hough變換方法等。
基於文本行的檢測可以用於已知文本行方向（水平或豎直）的文檔圖像，它利用了對圖像中連通體的分析。我們知道，連通體是一個灰度值相同的像素的集合，這個集合中任意兩個像素之間都是8-近鄰關係。可以用包含連通體內像素的最小矩形來表示連通體，它描述了連通體的大小和位置信息。如果已知文本行方向，我們就可以將連通體合併成文本行，並用直線逼近。該直線的傾斜角即為文本行的傾斜角。對整幅圖像的文本行作同樣分析，選出出現頻率最高的角度，即可作為圖像的傾斜角。
投影操作也是一種基本的圖像處理方法。將圖像按一定方向作投影，可以得到在該方向坐標軸上分布的波形，它描述了圖像沿該方向上的黑像素分布情況。如果圖像文本行是水平的，那么沿水平方向的投影波形將具有明顯的波峰和波谷。基於這一點，我們可以在候選傾斜角度範圍內轉動圖像，直至出現明顯的波峰和波谷為止，這時得到的角度就是傾斜角度。
Hough變換方法是在傾斜檢測中最常使用的方法，它抗噪聲干擾的能力強，並且不受圖像間隙干擾。它的原理是將直線從圖像空間映射到參數空間。這樣就將原圖像中的直線映射到參數空間的一點，而原圖像中的一點則對應著參數空間的一條正弦曲線。圖像空間中任意兩點所對應的正弦曲線在參數空間將相交於一點，進而，通過的直線上的所有點所對應的正弦曲線在參數空間都將相交於這一點。基於這一點，我們將直線檢測問題轉化為參數空間尋找局部最大值的問題。以上是標準Hough變換的基本思想。該方法適於文本行方向預先未知的情況。
3、版面結構理解
文檔圖像幾何結構的理解也稱為版面拆解，它是文檔圖像分析中的一個重要問題。版面拆解的目的是生成一個描述文檔圖像的層次結構：幾何結構。它將圖像分割成為具有相同特性的區域，為下一步的區域識別和文字識別做好準備。版面拆解的方法一般有如下三種：
自底向上（Bottom-Up，也稱為數據驅動）。這類方法利用圖像的局部信息，通過逐步將具有相同屬性的區域合併，得到對文檔版面的拆解。該方法能處理不同版面的文檔和具有一定傾斜的文檔，但是一般比較慢。
自頂向下（Top-Down，也稱模型驅動）。該方法從圖像全局出發，逐步對圖像進行分割，最後得到圖像的幾何結構。對Manhattan式的版面，該方法快速而且有效；但是對複雜文檔效果欠佳。影響自頂向下方法有效性的因素包括文本行位置的隨意性，區域形狀的不規則性以及文檔圖像的傾斜等。
綜合方法（Hybrid）則儘量綜合上述兩種方法的特點，使算法的性能和適應性都得到提高。
4、扭曲文檔圖像恢復
在掃描、複印或者拍攝文檔的過程中造成的圖像扭曲在文檔理解和處理方面是普遍的問題。這種文檔圖像的扭曲降低了光學文字辨識（OCR）能力，也嚴重影響了其使用效果。這是文檔列印數位化和自動化過程中的主要障礙。
這種扭曲文檔圖像採用相關的技術進行一定的恢復，稱為扭曲文檔圖像恢復。實驗證明，文檔圖像扭曲恢復後的OCR識別率要明顯高於恢復之前的。具體參考扭曲文檔圖像恢復一詞。

文檔圖像處理

基本介紹

涉及技術

處理內容

相關詞條

熱門詞條