扭曲文檔圖像恢復

關鍵字:文檔圖像,圖像處理,扭曲恢復

基本介紹

  • 中文名:扭曲文檔圖像恢復
  • 外文名:無
  • 關鍵字::文檔圖像,圖像處理,扭曲恢復
  • 發展人工智慧多媒體技術
定義,涉及內容,圖像處理,文檔圖像處理,扭曲文檔圖像的處理,小結,2D文檔圖像扭曲恢復的預處理,系統分析與設計,文檔圖像預處理,文檔圖像的扭曲恢復,字元和文本行標識,曲線分割與傾斜校正,字元平移,小結,文檔圖像的後處理,斷筆修復,背景恢復,實驗結果,小結,總結與展望,總結,後續研究,參考文獻,

定義

隨著人工智慧多媒體技術的發展,數字圖像處理技術的套用越來越廣泛。越來越多的文檔被掃描成為數字圖像,伴隨計算機的普及,為人們的生活、工作和學習提供了方便。同時,在文檔被掃描的過程中,數字圖像會出現普遍的扭曲和陰影現象。由各種原因造成的扭曲文檔圖像,無論是對人們的閱讀理解還是對文檔圖像處理的自動化都帶來了影響。
目前,已經出現一些扭曲文檔圖像恢復的技術。這些技術大致劃分為兩類[1]:基於2D文檔圖像分析的恢復技術和基於3D文檔模型重建的恢復技術。該分類是扭曲恢復技術分類的主流,多數恢復技術均圍繞這一分類展開。
文獻[2-4]均是針對分類中的前者進行研究,即從已有的扭曲文檔圖像出發,通過對扭曲文檔的特徵分析,找出合適的恢復算法。文獻[1,5]則更多從造成文檔扭曲的因素出發,包括硬體設備及掃描對象本身,通過重建文檔的3D模型並輔以數學分析,找出合理的恢復算法。其中,基於3D文檔模型重建且可行的前提必須是對象所呈現的模型是規範的,如圓柱狀,這樣勢必對文檔對象及其環境加以限制,如書脊平行於掃描光源等。文獻[6]將3D文檔模型重建與2D文檔圖像分析結合起來,解除一些限制,使其處理對象更加廣泛。綜上分析,這種基於3D模型重建的方法,為了建立規範的3D模型、解除各種限制,使加入的處理算法越來越多,從而使整個恢復技術顯得更複雜。這會導致至少兩方面問題:算法實現的複雜性提高和算法的整體效率降低。因此,它的適用性受到限制,尤其在處理大宗扭曲文檔圖像時顯得不實用。

涉及內容

圖像處理

圖像處理是指將圖像信號轉換成數位訊號並利用計算機對其進行處理的過程。它最早出現於20世紀50年代,當時的電子計算機已經發展到一定水平,人們開始利用計算機來處理圖形和圖像信息。
數字圖像處理作為一門學科大約形成於20世紀60年代初期。早期圖像處理的目的是改善圖像的質量,它以人為對象,以改善人的視覺效果為目的。圖像處理中,輸入的是質量低的圖像,輸出的是改善質量後的圖像,常用的圖像處理技術有圖像增強與復原、編碼壓縮等。
圖像處理的研究內容
1、圖像變換
由於圖像陣列很大,直接在空間域中進行處理,涉及計算量很大。因此,往往採用各種圖像變換的方法,如傅立葉變換、沃爾什變換、離散餘弦變換等間接處理技術,將空間域的處理轉換為變換域處理,不僅可減少計算量,而且可獲得更有效的處理(如傅立葉變換可在頻域中進行數字濾波處理)。目前新興研究的小波變換在時域和頻域中都具有良好的局部化特性,它在圖像處理中也有著廣泛而有效的套用。
2、圖像編碼壓縮
圖像編碼壓縮技術可減少描述圖像的數據量(即比特數),以便節省圖像傳輸、處理時間和減少所占用的存儲器容量。壓縮可以在不失真的前提下獲得,也可以在允許的失真條件下進行。編碼是壓縮技術中最重要的方法,它在圖像處理技術中是發展最早且比較成熟的技術。
3、圖像增強圖像復原
圖像增強和復原的目的是為了提高圖像的質量,如去除噪聲,提高圖像的清晰度等。圖像增強不考慮圖像降質的原因,突出圖像中所感興趣的部分。如強化圖像高頻分量,可使圖像中物體輪廓清晰,細節明顯;如強化低頻分量可減少圖像中噪聲影響。圖像復原要求對圖像降質的原因有一定的了解,一般講應根據降質過程建立“降質模型”,再採用某種濾波方法,恢復或重建原來的圖像。
4、圖像分割
圖像分割是數字圖像處理中的關鍵技術之一。圖像分割是將圖像中有意義的特徵部分提取出來,其有意義的特徵有圖像中的邊緣、區域等,這是進一步進行圖像識別、分析和理解的基礎。雖然目前已研究出不少邊緣提取、區域分割的方法,但還沒有一種普遍適用於各種圖像的有效方法。因此,對圖像分割的研究還在不斷深入之中,是目前圖像處理中研究的熱點之一。
5、圖像描述
圖像描述是圖像識別和理解的必要前提。作為最簡單的二值圖像可採用其幾何特性描述物體的特性,一般圖像的描述方法採用二維形狀描述,它有邊界描述和區域描 述兩類方法。對於特殊的紋理圖像可採用二維紋理特徵描述。隨著圖像處理研究的深入發展,已經開始進行三維物體描述的研究,提出了體積描述、表面描述、廣義圓柱體描述等方法。
6、圖像分類
圖像分類(識別)屬於模式識別的範疇,其主要內容是圖像經過某些預處理(增強、復原、壓縮)後,進行圖像分割和特徵提取,從而進行判決分類。圖像分類常採用經典的模式識別方法,有統計模式分類和句法(結構)模式分類,近年來新發展起來的模糊模式識別和人工神經網路模式分類在圖像識別中也越來越受到重視。

文檔圖像處理

文檔圖像獲取
近年來,數位化文檔被廣泛套用於辦公自動化、數位化圖書館、工業自動化等領域。隨著科技的發展,傳統掃瞄器體積大、效率低、攜帶不方便等不足之處日益突出,而數位照相機體積小、價位低,可以很容易地攜帶並結合到手機、 手提電腦以及各種網路設備中去,它還可以遠距離地對背景文字及脆弱的珍貴文檔拍照, 更適用於無約束環境下的數位化操作。因此,將數位照相機引入文檔圖像分析已經引起越來越多人的關注。
Newman的調查表明,從報紙上提取段落時,基於PC攝像頭的OCR操作比基於掃瞄器的OCR操作效率高得多;Fisher等調查了在戰場上用數字攝像機替換士兵攜帶sheet-fed掃瞄器的可能性。經證實,數字攝像機能夠以200dpi拍攝整張A4文檔紙,已經達到OCR所要求的解析度。
在過去的20年中,基於攝像機的文檔分析已經有一定的套用,如自動閱讀執照、書籍雜誌分類,貨運車ID、公路掛牌、危險標誌識別等。
文檔圖像獲取中的難題
用數位照相機拍攝的文檔圖像也有新問題需要解決:當文檔表面彎曲變形時,數字相機拍到的文字及圖形圖像將會產生畸變;在掃瞄器中,也會出現這一現象。文檔圖像的變形對後續處理工作,如 OCR識別、 數字文檔的版面分析、格式處理以及文檔自動化都帶來極大困難,因此必須首先通過圖像矯正的方法對這種變形文檔進行圖像恢復。
在2001年的數位化項目中,德國代表哲學家Nietzsche在Duisburg–Essen大學對創作於1865至1945年的文本文檔做了數字轉換。這次轉化的過程既複雜又耗時。很多文檔使用德國哥特體(fraktur)活字技術印刷出來,而現在的OCR程式對fraktur活字識別不很理想,因此常常伴隨著人工修改。對於那些質量差一些的以原始影印檔案為主的文學來源,數位化過程則需要進一步的人工互動。其中陰影、傾斜和扭曲都會極大的降低OCR識別的準確度。
文檔圖像的處理內容
文檔圖像處理包含許多方面,下面對一些重要的技術做簡要說明。
1、圖像去色及二值化
存儲在紙上的文檔,若要輸入計算機中,首先要通過掃瞄器掃描成為數字圖像。它可以是彩色圖像,也可以是灰度圖像,或者是二值圖像,取決於掃描的具體過程。但一般文檔處理系統要處理的是灰度圖像,而且很多成熟的圖像處理算法和工具包也是針對灰度圖像的。在進入識別階段時,識別引擎一般是針對二值圖像的。因此,我們必須對輸入的圖像進行處理,將其二值化。
圖像的二值化處理就是將圖像上的像素點的灰度值設定為0或255,也就是將整個圖像呈現出明顯的黑白效果。
將256亮度等級的灰度圖像通過適當的閥值選取而獲得仍然可以反映圖像整體和局部特徵的二值化圖像。在數字圖像處理中,二值圖像占有非常重要的地位。首先,圖像的二值化有利於圖像的進一步處理,使圖像變得簡單,且數據量減小,能凸顯出感興趣的目標輪廓。其次,要進行二值圖像的處理與分析,首先要把灰度圖像二值化,得到二值化圖像。
在我們所研究的文檔圖像處理這一特定領域中,圖像的二值化一般是指將灰度圖像轉化為只包含黑、白兩個灰度的二值圖像。文檔圖像可以看作是由文字、背景、圖片三類對象組成,而我們最關心的是文字區域二值化後的結果。
圖像的這種轉換必然會引起信息丟失,因此採用什麼樣的算法能夠最大限度地保留識別時必需的信息(如字元的連通性),去掉不必要的背景信息和噪聲,並且執行時間在實際可接受的範圍內,是人們一直以來努力研究的問題。
2、傾斜檢測與校正
文檔處理系統要求的處理對象是工整的文檔圖像,或者傾斜角度已知,否則許多對圖像的操作,例如投影分析,圖像分割等就無法進行。顯然,掃描進計算機的文檔圖像無法保證一定是正的,因此需要利用傾斜檢測和校正的方法對其進行處理。經常採用的傾斜角度檢測的方法有:基於文本行的檢測方法,投影輪廓分析方法,和Hough變換方法等。
基於文本行的檢測可以用於已知文本行方向(水平或豎直)的文檔圖像,它利用了對圖像中連通體的分析。我們知道,連通體是一個灰度值相同的像素的集合,這個集合中任意兩個像素之間都是8-近鄰關係。可以用包含連通體內像素的最小矩形來表示連通體,它描述了連通體的大小和位置信息。如果已知文本行方向,我們就可以將連通體合併成文本行,並用直線逼近。該直線的傾斜角即為文本行的傾斜角。對整幅圖像的文本行作同樣分析,選出出現頻率最高的角度,即可作為圖像的傾斜角。
投影操作也是一種基本的圖像處理方法。將圖像按一定方向作投影,可以得到在該方向坐標軸上分布的波形,它描述了圖像沿該方向上的黑像素分布情況。如果圖像文本行是水平的,那么沿水平方向的投影波形將具有明顯的波峰和波谷。基於這一點,我們可以在候選傾斜角度範圍內轉動圖像,直至出現明顯的波峰和波谷為止,這時得到的角度就是傾斜角度。
Hough變換方法是在傾斜檢測中最常使用的方法,它抗噪聲干擾的能力強,並且不受圖像間隙干擾。它的原理是將直線從圖像空間映射到參數空間。這樣就將原圖像中的直線映射到參數空間的一點,而原圖像中的一點則對應著參數空間的一條正弦曲線。圖像空間中任意兩點所對應的正弦曲線在參數空間將相交於一點,進而, 通過的直線上的所有點所對應的正弦曲線在參數空間都將相交於這一點。基於這一點,我們將直線檢測問題轉化為參數空間尋找局部最大值的問題。以上是標準Hough變換的基本思想。該方法適於文本行方向預先未知的情況。
3、版面結構理解
文檔圖像幾何結構的理解也稱為版面拆解,它是文檔圖像分析中的一個重要問題。版面拆解的目的是生成一個描述文檔圖像的層次結構:幾何結構。它將圖像分割成為具有相同特性的區域,為下一步的區域識別和文字識別做好準備。版面拆解的方法一般有如下三種:
自底向上(Bottom-Up,也稱為數據驅動)。這類方法利用圖像的局部信息,通過逐步將具有相同屬性的區域合併,得到對文檔版面的拆解。該方法能處理不同版面的文檔和具有一定傾斜的文檔,但是一般比較慢。
自頂向下(Top-Down,也稱模型驅動)。該方法從圖像全局出發,逐步對圖像進行分割,最後得到圖像的幾何結構。對Manhattan式的版面,該方法快速而且有效;但是對複雜文檔效果欠佳。影響自頂向下方法有效性的因素包括文本行位置的隨意性,區域形狀的不規則性以及文檔圖像的傾斜等。
綜合方法(Hybrid)則儘量綜合上述兩種方法的特點,使算法的性能和適應性都得到提高。

扭曲文檔圖像的處理

扭曲文檔圖像的恢復是當今圖像處理的研究熱點之一,隨著更多學者的加入,目前已出現一些文檔圖像的扭曲恢復技術。這些技術大致劃分為兩類:基於2D文檔圖像分析的恢復技術和基於3D文檔模型重建的恢復技術。
1、基於2D文檔圖像分析
基於2D文檔圖像分析的算法,摒棄對扭曲現象的幾何模擬,直接對文檔圖像進行分析,包括傾斜度、文本行、字元或詞組特徵,然後設計出一種不受文檔圖像以外因素影響的扭曲恢復技術。該算法不需要清楚的知道扭曲造成的原因。
Wu和Agam在其文獻[7]中提出一種方法,該方法在給定角度範圍內通過最小化局部累積投影從而檢測和跟蹤單文檔圖像中彎曲的文本行。這種算法是從給定區域的左邊界(假設左邊界是接近垂直的並由人為保證)開始,逐漸跟蹤這些彎曲的文本行。這些文本行用於重建可用於恢復扭曲的目標框架。在文獻[7]中這種算法被套用於由數位相機拍攝的低透率的文檔。他們沒有在文檔和相機的成像面的角度上加任何限制。另一方面,利用這種方法所呈現的結果仍然在文檔的扭曲區域存在文字的失真。
Zhang和Tan在文獻[8]中提出的算法,是通過光明區與從合訂本掃描的灰度級文檔圖像造成的陰影區之間的區別進行彎曲檢測的。圖像扭曲的部分在陰影區,連線組件的文本行可用近似於二次方程的曲線描述。而在非陰影區域的文本行則可參考近似直線確定。陰影區中兩曲線的結合處的相對位置用以參照非陰影區域相應的直線,上下垂直的移動連線組件的曲線,直到其方向與兩曲線切線的平均角度相吻合。
2、基於3D文檔模型重建
基於3D文檔模型重建的算法,主要從造成文檔扭曲的因素出發,包括文檔及其擺放角度、光源方向、圖像獲取設備特徵等因素。通過綜合分析,嘗試找出文檔理想的3D模型從而對扭曲現象進行模擬,再利用已有的數學知識進行恢復。該算法的優勢在於可利用已有知識,很好地模擬文檔扭曲的幾何模型。
在文獻[9]中,Cao et. al.針對由數位相機拍攝文檔造成的扭曲提出了一種圓通模型。他們的糾正算法僅局限於書形成的圓筒表面的母線平行於成像面的情況,即3D文檔模型成圓柱狀。
Zhang et. al.發表的文獻[10]中提出了一種算法,可以恢復文檔扭曲。這種文檔扭曲在掃描較厚的合訂本時產生的,而且書的脊柱與掃描光線是平行的。可見,現有基於模型算法的局限就在於他們需要很多前提條件。目前還尚沒有一種幾何模型可以適用於任何形式下扭曲文檔圖像的識別與自動恢復。
3、比較與分析
基於分析的和模型的算法都能提高OCR的識別率。結果顯示,在第一類算法中糾正過的文本中剩餘的彎曲率較高,但其邊界適應性仍是明顯的優勢。由於我們項目中的原始文檔經常不可靠,外部因素不確定,加上數位化和處理文檔的過程可能處於分散式,因此第二類算法顯得不適用。

小結

本章主要介紹了文檔圖像處理的相關知識,從文檔圖像的獲取及獲取中遇到的難題入手,介紹了文檔圖像的處理技術,進而引申到扭曲文檔圖像的處理,並對現有扭曲文檔圖像的兩種恢復技術原理做了簡要說明。

2D文檔圖像扭曲恢復的預處理

基於2D文檔圖像分析的扭曲恢復技術,整體分為三步:預處理、扭曲恢復和後處理。

系統分析與設計

1、扭曲恢復技術流程
文獻[2-3]對各種基於2D文檔圖像分析的方法進行描述,然而這些方法處理的對象都是西文。眾所周知,中文和西文有著很大的區別,因此以上很多方法在處理 扭曲的中文文檔時不實用。這裡從當前處理西文的方法出發,結合扭曲狀態下的中文特徵,找出一種簡單有效的中文文檔扭曲恢復技術。技術流程如圖3-1。
預處理
文檔圖像預處理,是將種類繁多的格式歸一化為程式易處理的點陣圖格式,且處理成為效果較好的二值化圖像,為其扭曲恢復做好準備。過程中涉及到格式轉換,圖像去色及二值化,以及噪聲消除等。
扭曲恢復
在扭曲恢復中,我們首先對預處理後的二值化扭曲圖像進行分析,採用相關的技術和算法對其中扭曲的文本進行恢復,然後輸出。該步主要包含了字符和文本行標識,曲線分割與傾斜校正,以及扭曲恢復等。
後處理
扭曲恢復後的圖像有明顯的信息丟失,後處理將最大限度的保存處理後的結果,並儘可能的進行信息補充與恢復,主要包括斷筆的修復和背景色的載入。
扭曲恢復技術的原理及具體實現在第三章至第五章中做了詳細描述。
2、需求分析與系統設計
1、需求分析
(1)目的:對扭曲的文檔圖像進行一定的恢復。
(2)範圍:通過照相、掃描、複印等獲取的扭曲的文檔圖像。
2、系統設計
(1)用戶界面設計。
(2)主選單設計。
扭曲恢復處理的選單主要包括預處理(Preprocessing)、扭曲恢復(Dewarping)、後處理(POstprocessing)以及過程(ProGress)。 其中,預處 理中包含了噪聲去除、圖像去色、和圖像二值化;扭曲恢復包括文本行與字元標識、曲線分割與傾斜校正、字符平移;後處理則是斷筆修復及背景載入;過程主要對處理過程的結果進行呈現,具體涉及可以如圖3-4。

文檔圖像預處理

1、圖像去色
圖像去色就是將圖像的顏色信息去掉,轉換成灰度圖像。由於本課題選取了合理的開發環境,可以容易地將各種格式的圖像轉換為易於像素計算的點陣圖。然後利用公式(3-1),將彩圖轉換為灰度圖像。
Gray = 0.11 * Red + 0.59 * Green + 0.3 * Blue (3-1)
實驗表明,該方法灰度處理的效果較好,如圖3-5與3-6,為處理後結果。
2、噪聲消除
圖像噪聲是干擾圖像正常顯示的無用信息,給圖像的處理帶來很大的麻煩。因此在圖像預處理中都會針對性的將噪聲消除。
消除噪聲的經典方法很多,下面簡要介紹其中的幾種:
1、均值濾波
它是用一個有奇數點的滑動視窗在圖像上滑動,將視窗中心點對應的圖像像素點的灰度值用視窗內的各個點的灰度值的平均值代替,如果滑動視窗規定了在取均值過程中視窗各個像素點所占的權重,也就是各個像素點的係數,這時候就稱為加權均值濾波。
2、自適應維納濾波器
它能根據圖像的局部方差來調整濾波器的輸出,局部方差越大,濾波器的平滑作用越強。它的最終目標是使恢復圖像f^(x,y)與原始圖像f(x,y)的均方誤差e2=E[( f(x,y)- f^ (x,y)) 2]最小。該方法的濾波效果比均值濾波器效果要好,對保留圖像的邊緣和其他高頻部分很有用,不過計算量較大。維納濾波器對具有白噪聲的圖像濾波效果最佳。
3、中值濾波器
它是一種常用的非線性平滑濾波器,其基本原理是把數字圖像或數字序列中一點的值用該點的一個領域中各點值的中值代換。其主要功能消除孤立的噪聲點,所以中值濾波對於濾除圖像的椒鹽噪聲非常有效。中值濾波器可以做到既去除噪聲又能保護圖像的邊緣,從而獲得較滿意的復原效果,而且,在實際運算過程中不需要圖像的統計特性,這也帶來不少方便,但對一些細節多,特別是點、線、尖頂細節較多的圖像不宜採用中值濾波的方法。
3、圖像二值化
圖像二值化方法很多,大致分為全局閾值二值化和局部自適應閾值二值化。不同的二值化方法得出的結果也相差甚遠,全局閾值二值化無論從算法時空複雜度還是實現難易都很簡單,但效果不理想;局部自適應閾值二值化算法複雜度較高,實現複雜,但效果較好。因此,如何選擇合適的二值化算法至關重要。經過試驗對比,選擇文獻[11]提出的二值化方法。
1、算法步驟
本文採用的二值化方法分為以下幾步:
(1)噪聲消除,灰度值圖像I經濾波去噪處理成灰度值圖像II,如公式:
這裡的濾波去噪在上一節的噪聲處理中已完成。
(2)以文獻[12]的方法,獲取前景區域的粗略估算。其中閾值的確定有公式:
T=m+( 1-k*( 1-S/R)) (3-3)
式中m為均值,S為局部標準差,R為動態標準差(取128),k=0.2/0.5 [0,1]。
(3)計算圖像II的背景區域B,如下公式3-4:
(4)通過背景表面B與圖像II的組合預測,確定最後閾值d,進行二值化,採用公式3-5:
2.實驗結果與分析
實驗證明,本文採用的二值化方法在對文檔圖像進行處理時,時間複雜度較全局閾值二值化要偏高,但其處理效果較好,這對後續字元和文本行標識至關重要。以圖3-6作為處理對象,進行實驗結果對比,如圖3-9。

文檔圖像的扭曲恢復

本章是整個扭曲恢復技術的重點,也是本文研究工作中的創新點。這裡從二值化圖像的分析開始,結合對文檔特徵的觀察與分析,經過字元和文本行標識、曲線分割與傾斜校正、以及字元平移的幾步處理,完成對二值圖像的扭曲恢復。

字元和文本行標識

字元標識,是指在文檔圖像中將具有獨立意義的字元用特殊符號表示出來,如英文單詞、中文漢字等。實際上,在缺乏詞庫的情況下完全準確的標識出字元是不可能的。因此只能結合文檔特徵,通過參數設定標識出儘可能多的獨立字元。
文本行標識,是指將文檔圖像中的文本行用特殊符號表示出來。文本行標識的方法很多,如基於直線擬合[13]、基於連通性檢測[14]和基於投影等。
本文是通過連通性檢測,並用不同顏色對各行各字加以區分。
1、標識的步驟
文獻[15]已提出了標識的算法,該算法中的檢測參數只適用於西文。本課題處理對象為扭曲的中文文檔圖像,針對該對象的特點,本文採用基於連通性檢測的標識方法,主要參考文獻[15]和[16],並在此基礎上調整,通過試驗對比,找出合適的字元和文本行標識方法。該方法分為以下兩個步驟:
(1)邊界歸零。將圖像的邊界像素歸一化為背景色,這種設定類似哨兵,可降低算法實現的複雜性。
(2)一次掃描標識。按照從左至右,從上到下原則,從圖像的起始像素開始掃描。過程中,利用前景像素的連通性,對當前像素的8個相連像素進行判斷,若存在一個連通的點,則再對該點進行遞歸判斷,直至8個相連像素中均無連通像素為止,後用合適的顏色加以標識。這裡,連通像素的參數設定為3*3矩陣,也可設定其他參數,即可進行不同大小的文本塊標識,若參數合適,可直接將文本行標識出。
4.1.2實驗結果
以圖3-9-C為處理對象進行標識,結果如圖4-1:
標識採用的是字元連通性原理,因此參數的設定直接影響到標識的效果。由於漢字的複雜性,在字元標 識的過程中,參數過小,容易出現一個漢字被標識為多色(理想情況是一字一色);反之則會出現多個漢字標識為一色,如圖4-2。行標識同樣存在這種情況(如圖4-3),如果參數設定合適即可標識出整行。

曲線分割與傾斜校正

已知文字行方向,將連通體合併成文字行,並用直線逼近。該直線的傾斜角即為文字行的傾斜角。對整幅圖像的文字行作同樣分析,選出出現頻率最高的角度,即可作為圖像的傾斜角。該方法是基於統計的原理,用出現頻率最高的角度代替所有文本行的傾斜角度。對於接近整體傾斜的文檔圖像,這種方法是合理的,且處理效率較高。然而對於扭曲的文檔圖像,甚至扭曲程度較高的圖像,該方法適用性就大大降低。
還有一種思想則是取該文本行基線曲線上被認為是最有代表性的切線斜率直接代替整個曲線斜率。
本文採用極限思想,即當截取曲線的片段小至一定程度時,我們認為截取的片段為直線線段。比起以上兩種方法,容易知道,這種極限思想無論是在整體傾斜的情況下還是在扭曲程度比較高的情況下,均比較合理。採用該思想,可將複雜的曲線處理轉化為直線處理,因為被截取的片段是被認為是傾斜非扭曲的。
具體做法是採用行內逐字跟蹤,記錄各漢字包圍框的上下邊界點,也即是對已知點求插值曲線。無論是線性,還是扭曲,求出的曲線都是文本行基線的最好描述,因此是合理的。再通過兩漢字間的兩點確定一直線,測定該直線參數並進行傾斜校正,以此類推至處理完該行整條曲線,而後拓展至整個文檔圖像。

字元平移

平移的思想
在極限思想下,行內很多詞組被認為是傾斜的,經校正後,該詞組處於類水平位置,但整行沒有在同一水平位置上。這就需要將同一行的字元或詞組按照該行的基準點進行平移,至該行內所有字元或詞組處於該水平位置。經過校正和平移處理後即得到扭曲恢復的二值化文檔圖像。

小結

本章詳細介紹了我們研究工作中的創新點,包括文檔圖像的標識方法、極限思想的運用、字元平移等。在每一步處理後,我們同時給出比較結果與分析。經過本章處理,基本上實現了從輸入的扭曲文檔圖像到扭曲恢復後圖像的轉變。同時,在處理過程中有大量信息的丟失,因此需要對扭曲恢復後的圖像進行最後處理。後處理與最終結果的測試與分析將在下一章中作詳細說明。

文檔圖像的後處理

預處理過程中,原始圖像失去了顏色等信息;扭曲恢復過程中,由於技術的不成熟,也導致文字失真,這些信息的丟失都是不可逆的。這需要我們在後處理中除了最大化保留處理的結果之外,還要儘可能彌補丟失的信息。這裡後處理具體指對恢復圖像中的文字失真進行斷筆修復,以及背景信息載入。

斷筆修復

扭曲恢復技術的不成熟,會導致在處理過程中丟失文字的筆畫信息,因此我們需要對應地彌補其丟失的信息。具體做法是對當前恢復的圖像進行文字標識,通過對該文字的合理膨脹,達到彌補信息的目的。這裡採用的膨脹算法是對當前點的8個相鄰像素的處理,因較為簡單,這裡不再贅述其算法偽代碼。
進行斷筆修復後的效果較為明顯,如圖5-1。

背景恢復

二值化處理導致當前圖像的背景全部丟失,因此我們需要將二值化過程中保留下的背景載入到斷筆修復後的結果中去。由於中文特徵的複雜性,二值化過程保留下的背景並不是理想的純背景信息如若直接載入扭曲恢復後的圖像,就會有陰影,效果不理想如圖5。本文的做法是對該背景進行均值處理,從而代替直接載入,背景恢復後的效果,如圖5-2。

實驗結果

本課題最終的實驗結果主要是進行OCR測試,通過比較OCR識別率,說明處理的有效性。所謂Optical Character Recognition(OCR),就是光學字元識別,是文字自動輸入的一種方法。它通過掃描和攝像等光學輸入方式獲取紙張上的文字圖像信息,利用各種模式識別算法分析文字形態特徵,判斷出漢字的標準編碼,並按通用格式存儲在文本檔案中。

小結

本章介紹了扭曲恢復圖像的後處理,經過最終的後處理,扭曲的文檔圖像在一定程度上得到了恢復。同時本章的實驗結果與分析,表明扭曲文檔圖像經過恢復後的OCR識別率明顯要高於未經過處理的原圖的識別率。同時證明,本課題提出的扭曲文檔圖像的恢復技術是可行的且有效的。

總結與展望

總結

這裡對研究工作進行總結,本課題的工作是對扭曲文檔圖像的恢復技術進行研究,通過對2D文檔圖像的特徵分析,尤其是扭曲狀態下的中文文檔圖像的特徵,結合當前適用於西文文檔圖像的扭曲恢復算法,提出了一種簡單可行的,且適用於中文文檔圖像的扭曲恢復技術。該技術能對一般的扭曲文檔圖像進行恢復,若再加以改進即可套用於生活實踐。

後續研究

本課題採用的恢復技術,仍有較大的改進餘地。雖然從實驗結果來看,該技術能夠初步實現對扭曲文檔圖像的恢復,明顯提高其OCR識別率。但該技術還不成熟,運用在實際項目中,面對大宗的扭曲文檔圖像處理時,可能會顯露出很多問題。首先,實際項目需要有較高的時間效率,該技術在二值化處理方面稍顯複雜,有很大簡化的空間;同樣,在字元標識和行標識的處理中,採用堆疊技術明顯增加了時間的複雜度,若能找到其他途徑,便再可提高其時間效率。其次,標識算法和文本行基線的曲線劃分仍需要通過大量實驗得到合適的參數,以便改進校正的效果。因此,整個處理過程還有許多需要商榷改進的地方。今後的研究和改進若能集中在以上分析的幾點,時間複雜度在實際可接受的範圍內,則該技術即可廣泛運用於實際項目中。

參考文獻

[1] C.L. Tan, L. Zhang, Z. Zhang and T. Xia, Restoring Warped Document Images through 3D Shape Modeling[J], IEEE Trans. on Pattern Analysis and Machine Intelligence, 28(2), 2006, pp. 195-208.
[2] N. Stamatopoulos, B. Gatos, I. Pratikakis and S.J. Perantonis, A Two-Step Dewarping of Camera Document Images[C]. The Eighth IAPR International Workshop on Document Analysis Systems, 2008. DAS '08.
[3] Lothar Mischke and Wolfram Luther, Document Image De-warping Based on Detection of Distorted Text Lines[C], ICIAP 2005, LNCS 3617, pp. 1068–1075.
[4] Changhua Wu and Gady Agam, Document Image De-warping for Text/Graphics Recognition[C], SSPR&SPR 2002, LNCS 2396, pp. 348–357.
[5] 劉婀娜,羅予頻,華成英. 變形文檔圖像的矯正方法研究[J],微計算機信息, 23(1,3),2007,pp.260-262.
[6] Bin Fu, Minghui Wu, Rongfeng Li, Wenxin Li, Zhuoqun Xu, Chunxu Yang, A Model-based Book Dewarping Method Using Text Line Detection[C], In 2nd Int. Workshop on Camera-Based Document Analysis and Recognition, Curitiba, Brazil, 2007.
[7] Wu,C., Agam,G., Document Image De-Warping for Text/Graphics Recognition[C], Proc. of Joint IAPR 2002 and SPR 2002, Windsor, Ontario, Canada, Aug. 2002, pp. 348-357
[8] Z. Zhang & C. L. Tan, Correcting document image warping based on regression of curved text lines[C], International Conference on Document Analysis and Recognition, Edinburgh, Scotland, 2003, pp. 589–593.
[9] Cao, H., Ding, X., and Liu, C., A Cylindrical Surface Model to Rectify the Bound Document Image[C], Ninth IEEE ICCV 2003 Vol. 1, Nice, France, Oct. 2003, pp.228-233
[10] Zhang, Z., Tan, C. L., Fan, L., Estimation of 3D Shape of Warped Document Surface for Image Restoration[C], ICPR 2004, Aug. 2004, Cambridge, UK, pp. 486-489
[11] B. Gatos, I. Pratikakis & S.J. Perantonis, Adaptive Degraded Document Image Binarization[J], Pattern Recognition, 39, 2006, pp. 317-327.
[12] J. Sauvola, M. Pietikainen, Adaptive document image binarization[J], Pattern Recognition, 33, 2000, pp.225-236
[13] 謝鳳英,姜志國,汪雷. 基於空白條方向擬合的複雜文本圖像傾斜檢測[J], 計算機套用,26(7),2007, pp.1587-1589,1597
[14] 盧達,浦煒,謝銘培. 文本行字元基線的精確測定算法[J], 小型微型計算機系統, 21(7),2000, pp.726-728.
[15] B. Gatos, K. Ntirogiannis, Restoration of arbitrarily warped document images based on text line and word detection[C], Proceedings of the Fourth conference on IASTED International Conference: Signal Processing, Pattern Recognition, and Applications Innsbruck, Austria, 2007, pp. 203-208.
[16] Ayman AbuBaker,RamiQahwaji, Stan Ipson, Mohmmad Saleh, One scan connected component labeling technique[C], 2007 IEEE International Conference on Signal Processing and Communications (ICSPC 2007), 24-27 November 2007, Dubai, United Arab Emirates.
[17]龔聲蓉,王林,劉純平等. 多媒體技術套用[M]. 北京:人民郵電出版社,2008.
[18]張宏林. Visual C++數字圖像處理典型算法(第二版)[M]. 北京:人民郵電出版社,2008.
[19]劉燕清龔聲蓉.基於一次排序動態編碼的HUFFMAN編碼算法[J].計算機套用與軟體,2009,26(12):86 - 88,176.

相關詞條

熱門詞條

聯絡我們