識別錯誤

識別錯誤

識別錯誤,當語音識別器或手寫識別器未按預期解釋語音或手寫時發生的錯誤。

基本介紹

  • 中文名:識別錯誤
  • 平台:pc及其他智慧型
  • 屬性 :計算機術語
  • 性質:計算學科
PDF檔案的識別,caj檔案的識別,超星檔案的識別,其他情況下的識別,

PDF檔案的識別

1)檔案可以直接識別的(以文本形式保存的PDF檔案):安裝acrobat7專 業版,注意不是acrobatreader,直接另外儲存為rtf檔案(識別整個檔案),或者選擇工具列上的文字選擇按鈕,然後選擇文字區域,然後複製到word等中。
2)檔案不能直接識別的(以圖片形式保存的PDF檔案):安裝office2003然後在印表機裡面會增加MicrosoftOfficeDocumentImageWriter印表機,然後將PDF檔案列印到此印表機,選擇列印形成的檔案的保存位置,然後會自動形成一個MDI檔案,並且自動用MicrosoftOfficeDocumentImage打開此檔案,然後選擇“工具”選單下的“使用ocr識別文本”,識別完成後,在選擇“工具”下的,“將文本傳送到word”,最後將把整個PDF檔案識別輸出到word檔案中。
注意:MicrosoftOfficeDocumentImage可以非常準確的全檔案識別轉化中文、英文、表格,但是無法將圖形輸出到word,而是把檔案中的所有圖形單獨形成一個個獨立的圖片檔案,放在相同位置的一個相同名稱的資料夾中,因此可用snagit軟體將圖形打開,然後複製到word中。(所有的識別軟體都不能很好的處理圖形的識別問題,MicrosoftOfficeDocumentImage的這種處理方法已經是非常好的解決這個問題了。)3)加密的Pdf檔案:先下載解密軟體4)繁體pdf檔案:用2)的方法識別到word後,用word中的“工具”--“語言”---“中文繁簡轉換”

caj檔案的識別

1)局部文字識別:直接使用caj瀏覽的ocr
2)全檔案識別:列印到MicrosoftOfficeDocumentImageWriter印表機,後面和上面的2)操作一樣
3)博碩論文全文下載:線上閱讀博碩論文,待可以看到最後一頁後,不要關閉caj瀏覽器,到caj安裝目錄下cache中找到一個較大的檔案,拷貝到其他位置即可。然後使用2)全部轉化為word。

超星檔案的識別

1)局部文字識別:直接使用超星瀏覽器(的ocr
2)全檔案識別:列印到MicrosoftOfficeDocumentImageWriter印表機,後面和上面的2)操作一樣,要注意的是,超星列印功能有點區別,因為超星是目錄和全文分開的,所以列印時,需要分別把目錄和正文識別到word中,在合併到一起。列印時要填入列印頁碼從1到最後一頁,不要選擇列印全部。此外在列印選項中,還要將頁面比例設成真實大小,而不是整寬。注意:識別速度比其他格式要慢很多,請保持耐心,但是最後當你看到輕鬆的生成全本書的word版本時,你會欣喜若狂的,呵呵。我的試驗結果是一本280頁的書,識別需要幾分鐘的時間。
3)超星相對比較麻煩一些,如果還有問題,可以先把超星列印成完整的pdf檔案,然後在用1、的方法轉成word

其他情況下的識別

使用snagit軟體將任何形式的文字可以變成圖片,例如使用snagit將螢幕拷貝成圖片,然後右鍵點擊圖片檔案,用microsoftOfficeDocumentImage打開圖形,其他和2)一樣。
注意:其他的各種識別軟體請不要在用,因為要么只能識別中文,要么只能識別英文,要么不能識別整個檔案,要么不能識別螢幕拷貝圖像,要么識別誤差很大,要么不能識別表格,要么需要註冊,要么識別速度很慢,要么使用不便(和word結合不緊),這些軟體包括:紫光ocr,萬方pdfocr,尚書,漢王,ScanSoftPDFConverter,pdf2word,以及各種被推薦的軟體等等,我都裝過,現在都像LJ一樣刪除了。只要安裝了acrobat專業版,snagit,office2003,現在你可以完美的做任何事,最重要的是這幾個軟體很好得到。
針對一些問題的補充:
經過一些試驗,發現microsoftOfficeDocumentImage存在一些不穩定的問題,例如在用caj列印到MicrosoftOfficeDocumentImageWriter印表機時,發現用caj5.5版本比較快,(caj5.5不能加升級補丁),而caj5.0有時出現假當機
另外頁面顯示大時,轉化的識別率較高。
如果頁數多的檔案,包括超星,如果有問題,可以分多次轉化。

相關詞條

熱門詞條

聯絡我們