漢字編碼系統

漢字編碼系統,就是漢字編碼系列的集合。它具有共同的編碼模式,統一的拼寫代碼,從共同的初始編碼出發,演化出一個個相互聯繫、相互演化的漢字編碼系列,將這些漢字編碼系列集合起來,就組成一個漢字編碼系統。它將字詞基本屬性的拼寫描述,作為編碼演化的基礎,能夠充分滿足拼音識字的教學要求。可為漢字編碼,擴展一些新的用途。

基本介紹

  • 中文名:漢字編碼系統
  • :漢字編碼系列的集合
  • 蠻族:滿足拼音識字的教學要求
  • 用途:漢字編碼,擴展
提要,做法,定義漢字編碼,建立編碼模式,定義系統代碼,確定字詞屬性,建立資料庫,意義,漢字編碼規範化,漢字文化傳承,擴展套用範圍,套用,新的輸入理念,為讀物標註,網路交流,其它套用,

提要

在中國,為了保證對於所有系統中文的編碼一致能夠互相進行操作,中文信息編碼由政府負責制定並監督實施。我國的GB18030標準作為強制標準實行,所有不支持GB18030標準的軟體將不能作為產品售出。
漢字編碼,包括計算機內碼和外碼。外碼中的輸入編碼,具有很多編碼樣式。這些編碼,它們各自獨立,不成體系。假如,我們把這些編碼系統化,模式化,讓它們既具有“個性化”,又具有“通用性”,並且,不局限於漢字輸入,那么,這樣的漢字編碼,將會發生一些全新的變化。

做法

定義漢字編碼

漢字編碼,就是字詞基本屬性的拼寫形式,這些拼寫形式,是用《漢語拼音方案》拼寫的。
這個定義規定:①編碼內容,是字詞的基本屬性。這些基本屬性,是最基本的啟蒙常識,包括漢字的讀音、筆順、偏旁部首及其組合等內容。②拼寫工具,是《漢語拼音方案》。

建立編碼模式

漢字編碼的“通用模式”是:
[漢字編碼]=[讀音描述’]+[形義特徵描述’]+[檢索序號];
等式右邊,包括讀音部分、形義特徵部分和序號部分;各部分及分隔設定號,可根據需要定義取捨。
讀音部分,描述字詞的讀音屬性,它按照《漢語拼音方案》和《漢語拼音正詞法基本規則》的規定,拼寫字詞。
形義特徵部分,描述字詞的筆順、偏旁部首和詞性等屬性,或同音字詞的區別特徵。
序號部分,描述字詞在同一個屬性分類中的排列順序,其自身,也是一種語文屬性,它使字詞的屬性描述具有確定性。
這個共同的編碼“通用模式”,具有開放性,它可以不斷地揚棄和吸收,以適應社會信息化需要。 利用編碼通用模式,可以實現編碼樣式的相互演化。
取其“讀音描述”部分,就是現有的“音碼”;
取其“形義特徵”部分,就是現有的“形碼”;
兩部分全取,就是現有的“音形碼”;調換兩部分位置,就是現有的“形音碼”。

定義系統代碼

“漢字編碼系統”,使用統一的代碼。它們是:
(1)、讀音代碼,描述字詞讀音和部件名稱;用《漢語拼音方案》拼寫,或縮寫。
(2)、筆畫代碼,描述漢字筆畫或書寫筆順;橫、豎、撇、點、折, 用《漢語拼音方案》拼寫,或縮寫。
(3)、聲調代碼,描述漢語音節的聲調;陰平、陽平、上聲、去聲,用《漢語拼音方案》拼寫,或縮寫(陽平聲調的縮寫,用“平”字的聲母“p”表示),輕聲不標,或將聲調用數字表示。
(4)、序號代碼,描述字詞在屬性分類中的排列序號,用漢語拼音字母表示,按字母表排序,或用數字表示,或將字母(或數字)定義相應的數值進制。
漢字部件,有讀音的,用讀音代碼描述;無讀音的,用筆畫代碼描述;也可以全用筆畫代碼描述。

確定字詞屬性

拼音識字階段,字詞的基本屬性,可首選為:讀音、筆順,然後再加入:部首、偏旁(部件)。
字詞讀音,按國語拼寫。多讀音的,教學用碼,以《小學生規範字典》的注音範圍為依據;社會用碼,以辭書典籍為注音依據,儘量全面收錄。
字形,依據GB18030-2005檔案字形。
書寫筆順,有國家標準的,按標準拼寫;無標準的,按現有標準類推拼寫;無法類推的,按筆順的一般原則確定。
部首,據形歸部,採用201部。取部方法,參照《如何確定漢字部首》(3)。
部首、偏旁(部件)名稱,有讀音依據的,用讀音稱說;無讀音依據的,採用“俗稱”。

建立資料庫

以《漢字屬性資料庫》,作為建立“漢字編碼系統”的數據載體(基礎)。《漢字屬性資料庫》,對漢字屬性(包括讀音、筆順、部首、部件組合、結構類型、字形標誌等)作全面反映。屬性描述中,對沒有規範依據和參考依據的字詞屬性,一律留出“空缺(空白)”,待有規範依據和參考依據時,再加以補充。

意義

建立“漢字編碼系統”的實用意義在於:

漢字編碼規範化

“漢字編碼系統”,使用法定的拼寫工具(《漢語拼音方案》)和統一的漢語拼音代碼,具有通用的編碼模式;所有編碼,按系列排序;不同編碼系列,具有共同的初始編碼,並以此相互演化。

漢字文化傳承

“漢字編碼系統”,將字詞的基本屬性全面描述,作為初始編碼,使字詞的各種編碼樣式,具有共同的漢字文化基礎。

擴展套用範圍

在“漢字編碼系統”,漢字編碼,將具有可讀性,確定性,它可以在漢字輸入,網路交流,機器翻譯,計算機底層語言方面,發揮應有的作用。

套用

新的輸入理念

大多的漢字輸入編碼,它是字詞屬性的固定組合,它是從碼錶中,檢索“固定的”組合編碼;“漢字編碼系統”,它是字詞屬性的隨機組合,它是從碼錶中,或資料庫中,檢索“隨機的”組合編碼。這種“隨機性”,是由使用者依據自己的意願,“隨機”組合的。
大多的輸入方法,輸入規則,是別人定好了的。使用者要做的,就是去學習和適應別人的輸入規則。“漢字編碼系統”,則換了一種角度,不要求使用者怎樣怎樣,而是讓使用者, “在語文常識範圍內,漢字,您想怎么打,就怎么打”。它的試驗模型,叫《語文輸入法》(4)。

為讀物標註

將漢字編碼,標註在啟蒙讀物中。不識字幼兒,可以利用計算機,一邊輸入,一邊跟隨機器閱讀。小學生,可以藉助漢字標註,直接在字典中查找漢字的其它注釋。這裡,以《三字經》標註為例,對漢字標註加以說明(5)。標註樣式為“讀音’部首’序號”樣式,隔音符號前面,是漢字的讀音,隔音符號後面,是漢字的部首代碼和檢索序號,整個標註樣式,就是漢字的輸入編碼。比如,“人”字,讀音是“rén”,部首代碼是“r”,檢索序號是“b”,它的輸入編碼是“ren2'rb”。
下面,是《三字經》的標註片段:
rén'rb zhī'd chū'y xìnɡ'x běn'm shàn'yb
人 之 初 性 本 善
xìnɡ'x xiānɡ'm jìn'cb xí'z xiānɡ'm yuǎn'c
性 相 近 習 相 遠
ɡǒu'c bú'h jiào'p xìnɡ'x nǎi'z qiān'cb
苟 不 教 性 乃 遷
jiào'p zhī'd dào'c ɡuì'b yǐ'r zhuān'h
教 之 道 貴 以 專

網路交流

年輕人,喜歡用拼音輸入,然後,轉成漢字,進行網上交流。實際上,單用拼音,也能進行交流。
比如,nin hao!(您好!)
這種交流,拼寫有時可能不具有確定性。
但是,採用“漢字編碼系統”的“讀音’部首代碼’檢索序號”樣式,可以實現漢字與拼寫,一一對應(5)。
本人嘗試過,對27000個漢字,採用這種拼寫樣式,漢字與拼寫,一一對應。
比如,“善”字,採用“讀音’部首代碼’檢索序號”樣式拼寫,可以劃分為三個套用層次:
(1)、一般拼寫:shan4 (“拼音”樣式);
(2)、熟練拼寫:shàn'y (“拼音’部首代碼”樣式);
(3)、計算機內碼:shàn'yb (“拼音’部首代碼 檢索序號”樣式)。

其它套用

(1)、用作計算機底層語言的漢字編碼。
現在,漢字編碼還不能參與計算機底層運算,也不能編制計算機底層應用程式。因為,現有的漢字編碼,還不能人機識讀,不具有“翻譯”的確定性。“語文編碼”,能夠人機識讀,字詞與編碼,具有唯一的確定性。
(2)、用作機器翻譯的漢字編碼。
字詞的機器翻譯,將遇到多音字詞,多義字詞的困擾。而“語文編碼”,將字詞的讀音、詞義標註的一清二楚,並具有確定性。

相關詞條

熱門詞條

聯絡我們