Optical Character Recognition

簡介

由於OCR是一門與識別率拔河的技術，因此如何除錯或利用輔助信息提高識別正確率，是OCR最重要的課題，ICR（Intelligent Character Recognition）的名詞也因此而產生。而根據文字資料存在的媒體介質不同，及取得這些資料的方式不同，就衍生出各式各樣、各種不同的套用。

歷史

早在60、70年代，世界各國就開始有OCR的研究，而研究的初期，多以文字的識別方法研究為主，且識別的文字僅為0至9的數字。以同樣擁有方塊文字的日本為例，1960年左右開始研究OCR的基本識別理論，初期以數字為對象，直至1965至1970年之間開始有一些簡單的產品，如印刷文字的郵政編碼識別系統，識別郵件上的郵政編碼，幫助郵局作區域分信的作業；也因此至今郵政編碼一直是各國所倡導的地址書寫方式。

OCR可以說是一種不確定的技術研究，正確率就像是一個無窮趨近函式，知道其趨近值，卻只能靠近而無法達到，永遠在與100%作拉鋸戰。因為其牽扯的因素太多了，書寫者的習慣或檔案印刷品質、掃瞄器的掃描品質、識別的方法、學習及測試的樣本……等等，多少都會影響其正確率，也因此，OCR的產品除了需有一個強有力的識別核心外，產品的操作使用方便性、所提供的除錯功能及方法，亦是決定產品好壞的重要因素。

目的

一個OCR識別系統，其目的很簡單，只是要把影像作一個轉換，使影像內的圖形繼續保存、有表格則表格內資料及影像內的文字，一律變成計算機文字，使能達到影像資料的儲存量減少、識別出的文字可再使用及分析，當然也可節省因鍵盤輸入的人力與時間。

從影像到結果輸出，須經過影像輸入、影像前處理、文字特徵抽取、比對識別、最後經人工校正將認錯的文字更正，將結果輸出。

Optical Character Recognition

基本介紹

簡介

歷史

目的

相關詞條

熱門詞條