掃描標準

解析度決定了掃瞄器所記錄圖像細節的豐富程度,以單位長度上的信息採樣點來表征,其單位是dpi。

掃瞄器技術標準,光學解析度,色彩深度(色彩位數),動態範圍,掃描速度,水平/垂直放大率,最大掃描區域,掃描噪音,掃瞄器,根據識別稿的質量進行處理,掃描識別稿的操作技巧,掃描參數的設定,識別後的處理工作,

掃瞄器技術標準

光學解析度

是指掃瞄器的物理解析度,由其光學部件及傳動部件構成的光學系統在單位長度上能夠採樣的最大信息量決定。光學解析度實際上就是掃瞄器的感光元件——CCD的解析度。 CCD是Charge Couple Device的縮寫,稱為電荷耦合器件,它是利用微電子技術製成的表面光電器件,可以實現光電轉換功能。CCD晶片上有許多光敏單元,它們可以將不同的光線轉換成不同的電荷,從而形成對應原稿光圖像的電荷圖像。如果我們想增加圖像的解析度,就必須增加CCD上的光敏單元數量。所以說,CCD的性能決定了掃瞄器的x方向的光學解析度
測試方法:選用包含不同解析度的水平及垂直黑白線對的標準測試圖片,將被測掃瞄器選項設定在光學解析度上,以灰度模式掃描標準測試圖片上的黑白線對,對不同解析度下水平及垂直黑白線對的掃描結果檢查,其中一組可完整、正確、辯識清楚的解析度最高的黑白線對所代表的解析度值,即為被測掃瞄器的實際光學解析度。
註:所謂完整、正確、辯識清楚,是指掃描輸出的水平或垂直黑白線對間,不能有斷線、連線或短線的情形。

色彩深度(色彩位數)

指掃瞄器在其捕獲的每個像素點上可以檢測出的最大顏色範圍,用每個像素點上顏色的數據位(bit)表示。目前有18位、24位、30位、36位、42位和48位等規格。通常掃瞄器的色彩深度越多,就越能真實反映原始圖像的色彩,掃出的圖像效果也就越真實。

動態範圍

說明掃瞄器能記錄的色調值寬度的範圍—--即所探測到的最淡顏色和最深顏色之間的差值,它描述了掃瞄器再現色調細微變化的能力。其單位以D表示。通常範圍越寬越好。
測試方法:選用含有連續灰階(由白色到黑色至少20階)的標準測試圖片,如IT8.7,2,使用密度計測量標準圖片上各灰階的密度值,將被測掃瞄器選項設定在光學解析度上,以灰度模式掃描標準測試圖片上的灰階圖形,檢查掃描結果,其最高可分辨的灰階密度值即為被測掃瞄器的實際動態範圍。

掃描速度

可分成預掃描速度和掃描速度。在掃描條件設定的情況下,計算掃描所花費的時間。單位以s/MB表示。在保證掃描質量的前提下,掃瞄器速度當然是越快越好。
測試方法:選用標準測試圖片,將被測掃瞄器選項設定在光學解析度上,以彩色模式掃描,確定掃描區域,計算實際所用掃描時間,即可算出被測掃瞄器的實際掃描速度。

水平/垂直放大率

指掃瞄器光學系統的水平/垂直放大率。放大率與光學解析度成反比,圖像的放大率越大,光學解析度越低,當使用最大解析度時,放大率只能小於1。
測試方法:選用自定義的標準測試圖片,將被測掃瞄器選項設定在光學解析度上,以灰度模式掃描標準測試圖片上的選定的圖形區域,利用測試軟體,讀取測試圖片上已定義好的四個端點坐標值。實測值與測試圖片上標準水平寬度之比即為水平放大率,實測值與測試圖片上垂直高度之比即為垂直放大率。

最大掃描區域

說明掃描設備可以攝取的最大圖像原稿的尺寸。
測試方法:選用自定義的標準測試圖片,將被測掃瞄器選項設定在光學解析度上,以灰度模式掃描標準測試圖片上的選定的圖形區域,利用測試軟體,讀取測試圖片邊界上兩端點坐標值,利用分析程式計算邊界誤差值。

掃描噪音

指掃瞄器在進行掃描時,因機械運動所產生的噪音大小,噪音當然是越小越好。

掃瞄器

根據識別稿的質量進行處理

進行掃描識別時,在可能的情況下應儘量選擇清晰度與潔淨度都很高的識別稿,識別稿的清晰度與潔淨度的不同會使掃描後的識別率有很大差距。對一般的印刷稿、列印稿等質量較好的文稿進行識別,只要掌握好方法與技巧,其識別率一般可達到98%以上。而對報紙、雜誌等清晰度不佳的原稿進行識別,無論使用何種識別軟體都難以達到很高的識別率。
1.對一些帶有下劃線、分隔線等符號的文本原稿,有些OCR軟體是識別不出的,一般會出現亂碼。如果必須掃描帶有這些符號的原稿,一是要確保使用的識別軟體能夠識別這些符號。二是使用工具擦掉這些特殊符號,使識別軟體能正確識別這些文字。
如果掃描後的文檔中含有OCR軟體不能識別的圖像、圖形和一些特殊符號,可以考慮使用“擦拭”工具將文檔中的圖像、圖形和一些特殊符號擦除,同時將圖像上一些雜點也一併去除。使圖像中除了文字沒有多餘的東西,這可以大大提高識別率並減少識別後的修改工作。
2.在掃描識別報紙或紙張較薄的文稿時,掃描時稿件背面的文字通常會透過紙張造成錯字或亂碼,使識別率大大降低。在對這類原稿掃描時,我們可以在原稿的背面覆蓋一張黑紙,在進行正式掃描時,適當增加掃描對比度或亮度,即可有效提高識別率。
3.對於一些圖文混排的原稿,掃描成一幅圖像進行全區識別會嚴重影響OCR軟體的識別率。我們可以根據實際情況將掃描後的版面切分成多個區域後再識別,切分區域的原則是:將圖形、圖像排除在區域之外,儘量把文字字型、字號一致的劃在一個區域內,不要嫌這個過程煩瑣而選用自動切分區域,手動選取掃描區域會有更好識別效果,還應注意各識別區域不能有交叉情況。

掃描識別稿的操作技巧

1.首先要保持工作環境的清潔,掃瞄器的玻璃板以及若干個反光鏡片及鏡頭,其中任何一部分髒污都會影響掃描文字圖像的效果。因此,保持掃瞄器的清潔是確保文字圖像掃描質量及識別率較高的重要前提。
2.掃瞄器在剛開啟時,光源的穩定性較差,而且光源的色溫也沒有達到正常工作所需的色溫,所以開始掃描以前最好先讓掃瞄器預熱一段時間。
3.在放置掃描原稿時,把掃描的文字材料擺放在掃描起始線正中,可以最大限度地避免由於光學透鏡導致的失真而影響識別率。
4.掃描後的文字圖像經常會有一定角度的傾斜,出現這種情況必須在掃描後使用自動或手動旋轉工具進行糾正,OCR軟體一般都設有自動糾偏和手動糾偏工具。否則OCR識別軟體會將水平筆畫當作斜筆畫處理,識別率會下降很多。如果掃描後的文字圖像傾斜角度超過15°,傾斜校正會產生較大的失真和誤差,從而嚴重影響識別率,這種情況建議擺正原稿重新掃描。

掃描參數的設定

掃描參數的設定主要包括解析度的設定及亮度和對比度的設定。
1.一般來講,解析度越高識別率也就會越高。但這也不是絕對的,對於一些過大過粗的字型,設定過高的解析度,識別率可能會降低,而且設定高解析度後,掃描速度會大大降低。根據實際經驗,1、2、3號字的文稿推薦使用200dpi,4、小4、5號字的文稿推薦使用300dpi,小5、6號字的文稿推薦使用400dpi,7、8號字的文稿推薦使用600dpi。
2.掃描時適當地調整好亮度和對比度值,對識別率的高低影響很大,在進行掃描亮度和對比度的設定時,以掃描後的圖像中文字的筆畫較細、均勻,且沒有明顯斷點為準。如果掃描後的文字圖像存在黑點、黑斑或文字線條很粗很黑,分不清筆畫,說明亮度值太小,應該增加亮度值再重新掃描。如果文字線條凹凸不平,有斷線甚至圖像中漢字輪廓嚴重殘缺時,說明亮度值太大,應減小亮度後再重新掃描。如果要掃描質量比較差的文稿,比如報紙,掃描出的圖像可能會出現大量的黑點,而且在字型的筆畫上也會出現粘連現象,為獲得較好的識別結果,必須仔細進行亮度和對比度值的調整,反覆掃描多次才能獲得比較理想的效果。

識別後的處理工作

1.文字校正
文字校正是OCR識別工作中比較煩瑣的一步。一般OCR軟體對可能出現錯誤的文字,會顯示出藍色標記,請用戶確認。但在沒有提示出錯的地方,也有可能出錯。所以大家在校對時應該通讀一遍,以提高文字錄入的準確率。
2.識別後文本的保存
如果把識別後的文本簡單複製貼上到Word中保存處理,就需要去掉多餘的硬回車,這樣會非常麻煩。正確方法是:先將識別後的文本存檔,在存檔時設定為軟回車就行了。對於《紫光OCR》,則需要在識別完成後,選擇檔案選單下的導出命令,將存儲類型選為TXT,段內回車字元選為無。
注意:一定不要直接存檔,否則不能自動去掉文章的硬回車。《尚書OCR》、《漢王OCR》和《紫光OCR》都提供了段內去除硬回車的功能。

相關詞條

熱門詞條

聯絡我們