漢字輸入編碼

漢字輸入編碼

漢字輸入編碼是漢字編碼方案的一種,可歸結為5種類型。

基本介紹

  • 中文名:漢字輸入編碼
  • 類型:5種
  • 屬於:漢字編碼方案的一種
  • 背景:使用漢字人口最多
介紹,背景,類型,

介紹

為便於將漢字送入中文處理終端或系統,用預先設計好的方法,將漢字音、形、義有關要素變成數字、字母或鍵位名稱的轉換方法。漢字輸入編碼是人到機(計算機)交換漢字特徵信息的界面。漢字輸入碼的長度隨著輸入方法的不同而不同。

背景

世界上使用漢字的人口約占世界總人口的 1/4,因此研究和發展漢字輸入編碼是一項非常急迫的任務。中國是漢字的發源國,漢字套用已有數千年歷史。1987年中國研究漢字輸入編碼的人員已近 400人,不論在深度和廣度上,都走在世界前列。
1981年,中國國家標準局公布的國標 GB2312-80《漢字信息交換用編碼字元集》,收漢字6763個,到80年代中期除專業用字元集外,都以國標字元集所收漢字作為輸入編碼範圍。
漢字輸入編碼入手的方法,是在漢字中尋找統一的有規律的特徵信息,將漢字二維平面圖形信息轉換成一維線性代碼。根據所取特徵信息的不同,漢字輸入編碼分從音編碼和從形編碼兩大類。其他類型是相互結合型,或與字義結合,或與檢字法結合,或與詞組結合。因設計的目的、思想不同,用以編碼的元素、所用碼元的數量、取碼方法和規則,避開同碼字和占用鍵盤鍵位的方法等,都因設計者而異,因此產生了數百種漢字輸入編碼方案。
從音編碼是以1958年 2月11日中國全國人民代表大會批准公布的《漢語拼音方案》為基本編碼元素。漢語拼音是以北京語音為標準音,以北方語為基礎方言,以典範的白話文著作為語法規範的國語。自推廣國語以來,已有相當數量的人掌握了漢語拼音,以此為基礎作漢字輸入編碼,為這部分人所樂於接受。但中國各地方言複雜,不少人還難以做到準確認讀漢字,因此容易出現差錯。此外,北京語系只有21個聲母,39個韻母,1332個音節,不能區別成千上萬個漢字,同音字很多,所以需要增加定字編碼。這就要從形、從義去找,或藉助計算機將同音字全顯示出來,再去選擇定字,可見從音編碼方式輸入繁瑣,輸入速度低。但日常漢語口語中有詞、語句的限定,同音字不會被人誤解。利用這一漢語特徵,拼音編碼已向拼音詞組編碼發展來解決部分欠缺。
從形編碼是以筆畫和字根(字元、部件)為編碼元素。現代漢字是從甲骨文、金文演變而來,經過篆書、隸書、楷書等演變而形成的。在形體上逐漸由圖形變為筆畫,象形變為象徵,複雜變為簡單。造字原則從表形、表義到形聲,漢字數量增多主要是形聲字數量多。漢字從形編碼是充分利用現代漢字這些特徵,把漢字平面圖形編成線性代碼。
漢字從形編碼利用人們已有的漢字書寫知識,在鍵盤上象寫字一樣打入筆畫和字根,從計算機內選出漢字,既直接又方便。這樣就要把上千個字根和上百個筆畫儘可能歸納,減少它們的數量,以便於記憶字根所在鍵位。到1987年已能將字根歸納為100個左右,筆畫為5個。字根少了會造成分解漢字圖形的難度,字根多了又會增加記憶量,所以設計者需從中選取最佳的取捨方案,做到易學易記,因此形碼方案數量很多。為達到高速輸入,從形編碼也向詞組編碼發展。
漢字輸入編碼將會隨著計算機套用的普及,通過學術評議和用戶實踐,由數百種優選成數種實用方案。

類型

漢字編碼方案的一種,可歸結為下列幾種類型:
(1)漢字拼音編碼 以漢語拼音為基礎的漢字輸入編碼,在漢語拼音鍵盤或經過處理的西文鍵盤上,根據漢字讀音直接鍵入拼音。
(2)漢字字形編碼所有的漢字都由橫、豎、撇、點、折、彎有限的幾種筆劃構成,並且又可分為‘左右’、‘上下’、‘包圍’、‘單體’有限的幾種構架,每種筆劃都賦予一個編碼並規定選取字形構架的順序,不同的漢字因為組成的筆劃和字形構架不同,就能獲得一組不同的編碼來表達一個特定的漢字,廣泛使用的‘五筆字形’就屬於這一種。
(3)漢字直接數字編碼 利用一串數字表示一個漢字,電報碼就屬於這種。
(4)整字編碼 設定漢字整字大鍵盤,每個漢字占一個鍵,類似中文印表機,操作人員選取漢字,機器根據所選漢字在盤面上的位置將其對應編碼送入計算機。
如今,通過語音和圖像識別技術,計算機能直接將漢語和漢字文本轉換為機器碼,已經有多種語音識別系統和多種手寫體印刷體的漢字識別系統面世,相信還有更完美的產品推出。

相關詞條

熱門詞條

聯絡我們