Optical Character Recognition

Optical Character Recognition是屬於圖型識別(Pattern Recognition,PR)的一門學問。其目的就是要讓計算機知道它到底看到了什麼,尤其是文字資料。

基本介紹

  • 中文名:圖型識別
  • 外文名:Optical Character Recognition
  • 目的:讓計算機知道它到底看到了什麼
  • 簡稱:Pattern Recognition,PR
簡介,歷史,目的,

簡介

由於OCR是一門與識別率拔河的技術,因此如何除錯或利用輔助信息提高識別正確率,是OCR最重要的課題,ICR(Intelligent Character Recognition)的名詞也因此而產生。而根據文字資料存在的媒體介質不同,及取得這些資料的方式不同,就衍生出各式各樣、各種不同的套用。

歷史

早在60、70年代,世界各國就開始有OCR的研究,而研究的初期,多以文字的識別方法研究為主,且識別的文字僅為0至9的數字。以同樣擁有方塊文字的日本為例,1960年左右開始研究OCR的基本識別理論,初期以數字為對象,直至1965至1970年之間開始有一些簡單的產品,如印刷文字的郵政編碼識別系統,識別郵件上的郵政編碼,幫助郵局作區域分信的作業;也因此至今郵政編碼一直是各國所倡導的地址書寫方式。
OCR可以說是一種不確定的技術研究,正確率就像是一個無窮趨近函式,知道其趨近值,卻只能靠近而無法達到,永遠在與100%作拉鋸戰。因為其牽扯的因素太多了,書寫者的習慣或檔案印刷品質、掃瞄器的掃描品質、識別的方法、學習及測試的樣本……等等,多少都會影響其正確率,也因此,OCR的產品除了需有一個強有力的識別核心外,產品的操作使用方便性、所提供的除錯功能及方法,亦是決定產品好壞的重要因素。

目的

一個OCR識別系統,其目的很簡單,只是要把影像作一個轉換,使影像內的圖形繼續保存、有表格則表格內資料及影像內的文字,一律變成計算機文字,使能達到影像資料的儲存量減少、識別出的文字可再使用及分析,當然也可節省因鍵盤輸入的人力與時間。
從影像到結果輸出,須經過影像輸入、影像前處理、文字特徵抽取、比對識別、最後經人工校正將認錯的文字更正,將結果輸出。

相關詞條

熱門詞條

聯絡我們