中日韓越統一表意文字

中日韓越統一表意文字(CJKV Unified Ideographs),目的是要把分別來自中文、日文、韓文中,本質相同、形狀一樣或稍異的表意文字(主要為漢字,但也有仿漢字如日本國字、韓國獨有漢字)於ISO 10646及Unicode標準內賦予相同編碼。越南文後來亦加入此計畫,所以亦有“CJKV”的稱呼。Unicode亦開始收錄其仿漢字-喃字

基本介紹

  • 中文名:中日韓越統一表意文字
  • 外文名:CJKV Unified Ideographs
  • 時間:1980年
  • 國家:中日韓越
  • 文字:中文、日文、韓文、越文
概況,歷史沿革,字源,漢字,問題,

概況

中日韓越統一表意文字(英語:CJKV Unified Ideographs),舊稱中日韓統一表意文字(英語:CJKUnified Ideographs),也稱統一漢字(英語:Unihan),目的是要把分別來自中文、日文韓文、越文、壯文中,對於相同起源、本義相同、形狀一樣或稍異的表意文字主要為漢字,但也有仿漢字如:方塊壯字、日文漢字(かんじ / kanji)、韓文漢字(한자 / hanja)、越南的喃字(Chữ Nôm)與越文漢字[漢字/Hán Tự,在越南也稱作儒字(𡨸儒/Chữ Nho)],應賦予其在ISO 10646統一碼標準中有相同編碼。此計畫原本只包含中文、日文及韓文中所使用的漢字,是以舊稱中日韓統一表意文字CJK)。後來,此計畫加入了越文的喃字,所以合稱中日韓越統一表意文字(CJKV)。

歷史沿革

1978 年,日本基於ISO 2022,制訂了全世界最早的漢字編碼 JIS C6226。1980年代,中國大陸、台灣、韓國則各自製訂了自己的規範。這些規範彼此之關並無關聯。若要在一份檔案中同時使用,則要以脫序字元的方式來交換。
1980 年,日本的國立國會圖書館的高橋德太郎以圖書學的觀點指出,一個統一的東亞漢字編碼系統是有必要的。同年,台灣制定了三位元組的中文信息交換碼。偶然的是,這是第一個期望可以一致處理中國大陸、日本、台灣漢字的編碼。之後,美國的國會圖書館採用了此規格,並另外命名為東亞編碼字元(EastAsia Coded Character,EACC,ANSI/NISOZ39.64)。
1984年,ISO 的文字編碼委員會(ISO/TC97/SC2)決議制訂出一套編碼規格(ISO10646),是以交換文字集的方式來統一處理世界的文字。並成立了工作小組(ISO/TC97/SC 2/ WG 2)。這個編碼一開始的構想是採用16位,而對於日本及中國等國的漢字編碼則原封不動地加入。但若如此,中國當時所制訂的編碼都無法加入,因而反對。並於1989年,提出了各國的漢字統合集合(HanCharacter Collection,HCC)的構想。
1990年完成了 ISO10646 的初版草案(DIS10646)。漢字使用32 位來表示。並將各國的漢字編碼原封不動地加入。但中國認為,若各國各自為漢字編碼,將不利於統一處理漢字,因而反對。為了日後關於漢字編碼的討論及方針能順利進行,並呼籲WG 2 特別設定了中日韓聯合研究小組(CJK-JRG,JointResearch Group,為表意文字小組的前身),以持續討論。
另一方面,1987年,全錄的 JoeBecker 和Lee Collins 開發了統合處理全世界所有文字的統一碼。1989年發表了統一碼概要。基本為 16 位。於是,中、日、韓文字統合了。基本方針為以16 位處理所有文字。 1990年,完成了基於此方針的最終草案。來年1991年1月,大致同意此方案的企業成立了統一碼聯盟。中、日、韓中類似的漢字使用約二萬多個字。為了未來擴充,保留了三萬個漢字以供其它用途。
1991年,各國希望能以一致的方式處理文字,如統一碼這般,因而否決了ISO/IEC 10646 的初版草案。基於中國與統一碼聯盟的提議,ISO10646 和統一碼成立了中日韓聯合研究小組。中日韓聯合研究小組將基於各國的漢字編碼,獨自訂定規範、製作ISO 10646 和統一碼的統一漢字編碼。年尾,完成了UnifiedRepertoire and Ordering (URO) 。
1992年,URO 加入 ISO10646 的第二版。但是,發現了一些缺失,之後進行了修正。
1993年5月,正式制訂了最初的中日韓統一表意文字,位於U+4E00–U+9FFF 這個區域,共20,902 個字。一個月後,制訂了統一碼1.1 。
1999年,依據 ISO/IEC10646 的第17 個修正案(Amendment17)訂定了擴充區 A ,於U+3400–U+4DFF 加入了6,582 個字。
2001年,依據 ISO/IEC10646-2,新增了擴充區B ,有 42,711 字。位於U+20000–U+2A6FF。但因在短時間內增加了大量的漢字,導致產生了許多重複的字形。
2005年,依據 ISO/IEC10646:2003 的第1 個修正案(Amendment1),基本多文種平面增加了 U+9FA6 到 U+9FBB 等 22 個漢字。
2009年,統一碼 5.2 擴充區 C 增加了U+2A700-U+2B734 和U+9FC4~U+9FCB。
2010年,統一碼 6.0 擴充區 D 增加了U+2B740-U+2B81F 。
2012年,1字增加 U+9FCC 。

字源

最初期統一漢字
最初期的統一漢字(20,902字)字源來自以下字集:
中國大陸的G源
G0:GB 2312-80:6,763字
G1:GB 12345-90:2,352字(含58個香港字和2個吏讀字,不包括和G0重覆的字)
G3:GB 7589-87:7,237字
G5:GB 7590-87:7,039字
G7:現代漢語通用字表:642(G0, 1, 3, 5, 8未包括的字)
G8:GB 8565-89:290字(G0, 1, 3, 5未包括的字)
台灣的T源
T1:CNS 11643-1986第一字面:5,401+9字(含9個計量用漢字)
T2:CNS 11643-1986第二字面:7,650字
TE:CNS 11643-1986第十四字面:6,319+239+10(含239個CCCII特字和10個XCCS特字)
日本的J源
J1:JIS X 0208-90:6,335+1字
J2:JIS X 0212-90:5,801字
韓國的K源
K0:KS C 5601-87:4,888字(含268個重見字)
K1:KS C 5657-91:2,856字
以上的來源字集會實施字源分離原則。
另外還有:ANSI Z39.64-1989(EACC)、Big5、CCCII第一面、GB 12052-89、JEF、中國大陸電報碼、台灣電報碼、Xerox Chinese。這些來源字集不會實施字源分離原則。
很多人以為20,902統一漢字中來自台灣的只是Big5的一萬三千多字,其實不然.
擴展A區
擴展A區包含有6,582個新的漢字,位置在 U+3400—U+4DB5。相比起最初期統一漢字,擴展A區多了來自多個來自中國大陸、台灣、新加坡等漢字。
這6千多個漢字分別從以下字典或字集中取得:中國大陸 《康熙字典》5357字(獨有1892字)
漢語大字典》5888字(獨有339字)
G3:GB 7589-87 繁體字:2391字
G5:GB 7590-87 繁體字:1226字
G7:120字 GS:新加坡漢字226字 台灣 T3:CNS 11643-1992 第三字面(原本為CNS 11643-1986第十四字面)新加入字元
T4:CNS 11643-1992 第四字面
T5:CNS 11643-1992 第五字面
T6:CNS 11643-1992 第六字面
T7:CNS 11643-1992 第七字面
TF:CNS 11643-1992 第十五字面
日本 JA: Unified Japanese IT Vendors Contemporary Ideographs, 1993
韓國K2:PKS C 5700-1:1994 K3:PKS C 5700-2:1994
越南 V0:TCVN 5773:1993 V1:TCVN 6056:1995
擴展B區
擴展B區包含有42,711個新的漢字,位置在 U+20000—U+2A6D6。根據ISO/IEC JTC1/SC2/WG2/IRG N777號檔案,這四萬多個漢字分別從以下字典或字集中取得:
CNS 11643的第4平面到第15平面所收錄的30,177個漢字;
在《漢語大字典》中出現的28,914個未收錄漢字;
在《康熙字典》中出現的18,486個未收錄漢字(包括一個在補遺篇出現漢字);
朝鮮的國家標準所收錄的5,642個漢字;
在越南的國家標準所收錄的4,232個字喃;
HKSCS中出現的1,081個未收錄漢字;
《漢語大詞典》中出現的553個未收錄漢字;
《四庫全書》中出現的522個未收錄漢字;
日本工業標準的JIS X 0213第3平面及第4平面的302個未收錄漢字;
1980年代版本的《辭海》中出現的247個未收錄漢字;
大韓民國PKS 5700-3:1998中出現的166個未收錄漢字;
《中國大百科全書》中出現的86個未收錄漢字;
《辭源》中出現的66個未收錄漢字;
北大方正排版系統中出現的65個未收錄漢字;
這堆漢字中重複的漢字有不少,所以經過整理之後,總數實際上只有42,711個漢字。
另外,在 U+2F800—U+2FA1D 的位置,放了542個來自台灣的兼容漢字。
Unicode 4.1漢字
為使 Unicode 向下兼容 GB 18030 和香港增補字元集(HKSCS)的所有漢字,而擴展C區又遲遲未能出籠,在 Unicode 4.1 版中引進了14個香港增補字元集的用字和8個 GB 18030 用字。該22字被編於 U+9FA6—U+9FBB 的位置。
另外,在 U+FA70—U+FAD9 的位置,放了106個來自朝鮮的兼容漢字。
擴展C區按計畫,中日韓統一表意文字擴展C區將收錄4,251個漢字,包括來自中國大陸、澳門、台灣、日本、越南等尚未被編碼的漢字。這些漢字預計會收錄在下一版的 Unicode 版本中,位置在 U+2A6E0—U+2B77A。
字源分離原則
字源分離原則(Source Separation Rule)是整理中日韓統一表意文字的基礎。
由於CJK各地字型多有微妙的差異,如“戶”字的第一筆,台灣作撇、中國大陸作點、日本作橫,這種程度的差異,理想上是整並為一個字為佳。然而,從之前各種受挫之文字整並計畫的經驗得知,整合字集與現行通用字集(Big5或國標碼)等無法一一對應,是推行整合字集的最大阻礙。
例如,日本的JIS標準同時收錄了“剣”字與“劍”字,原本JIS檔案里這兩個字可以並存,但採用整合字集後反而變成同一個字,會造成使用上的困擾。於是,字源分離原則因而誕生。
字源分離原則是指,在上述所列出之各種字源里,若有任何字集同時收了兩種以上的文字字形,則在Unicode中日韓統一表意文字中,也同時收錄這些字。這樣一來,現行的各種原有字集與Unicode漢字可以一一對應。
由於Unicode中日韓統一表意文字的主要訴求,就是能大幅減少Unicode收錄漢字字數,同時尊重各地的習慣字形。但字源分離原則則破壞了“只對字,而不對字形”編碼之原則,亦遭受不少批評。
已統一的漢字原則上ISO 10646隻對字(Character),而非字形(Glyph)編碼。同一字各地可使用自己的標準寫法。下例中使用HTML標示同一編碼的字在不同地區中的寫法。
擴展C區
於2009年10月發布的Unicode 5.2涵蓋了擴展C區,共收錄4,149個漢字,包括來自中國大陸、澳門、台灣、日本、越南等尚未被編碼的漢字。位置在 U+2A700—U+2B734。
擴展D區
擴充區D包含的都是所謂的「急用漢字」,合共222個新漢字,於2010年下旬發布的Unicode6.0中,編碼範圍為 U+2B740 至 U+2B81F(實際有字元為 U+2B740 至 U+2B81D)。
擴展D區原本計畫放置擴展C區未收錄的16,000多個漢字,但在2007年5月,台灣撤消了6,545個第二部分字集內私用漢字,不再使用字,原因是那些人名用字的擁有人或已去世或已移居外地,此後擴展D區縮減到大約10,000字左右。,由於各種阻礙,協定先把數量較少,又急切要收錄的漢字提交出來,就是「急用漢字」,以便和統一碼6.0.0版一起發表。提出的急用漢字只有二百二十二字(本來有二百二十三字,但中國大陸撤回其中一字)。現在文字小組把第二部分字集延後到擴充E區。

漢字

有些字只是同一字在不同地區的寫法,理應統一,但因為字源分離原則而只好分開編碼。值得注意的是字源分離原則由擴展A集 (Extension A) 開始已沒有使用,原因是CNS中有太多字形非常接近,按 Unicode 標準應該統一的字。這些字只有第一個會編入正式字集(包括Extension A,B,C) 中,其餘的編入位於第二輔助平面表意文字補充兼容區 (Compatibility Ideographs Supplement) 中。
以下是所有摘自ISO/IEC JTC1/SC2/WG2字源分離原則檔案之中有的字。
Unicode


Unicode

U+4E1F

U+4E22

U+4E48

U+5E7A

U+4E89

U+722D

U+4EDE

U+4EED

U+4F75

U+5002

U+4FA3

U+4FB6

U+4FC1

U+4FE3

U+4FDE

U+516A

U+4FF1

U+5036

U+5024

U+503C

U+5077

U+5078

U+507D

U+50DE

U+514C

U+5151

U+514E

U+5154

U+5156

U+5157

U+518A

U+518C

U+51C0

U+51C8

U+51E2

U+51E3

U+5203

U+5204

U+520A

U+520B

U+5220

U+522A

U+5225

U+522B

U+5238

U+52B5

U+5239

U+524E

U+524F

U+5259

U+525D

U+5265

U+5292

U+5294

U+52FB

U+5300

U+5355

U+5358

U+5373

U+537D

U+5377

U+5DFB

U+53C1

U+53C2

U+53C3

U+53C4

U+5415

U+5442

U+541E

U+5451

U+5433

U+5434

U+5449

U+5436

U+5450

U+543F

U+544A

U+5527

U+559E

U+55A9

U+55BB

U+5618

U+5653

U+568F

U+5694

U+56EF

U+56FD

U+5708

U+570F

U+570E

U+5713

U+5716

U+5717

U+5759

U+5DE0

U+57D2

U+57D3

U+5848

U+588D

U+5861

U+586B

U+5897

U+589E

U+58EE

U+58EF

U+58FD

U+5900

U+5910

U+657B

U+5932

U+672C

U+5965

U+5967

U+5968

U+596C

U+734E

U+5986

U+599D

U+598D

U+59F8

U+59CD

U+59D7

U+59EB

U+59EC

U+5A1B

U+5A2F

U+5A31

U+5A55

U+5AAB

U+5A7E

U+5AAE

U+5AAA

U+5ABC

U+5AAF

U+5B00

U+5B0E

U+5B14

U+5B24

U+5B37

U+5B73

U+5B76

U+5BAB

U+5BAE

U+5BDB

U+5BEC

U+5BDC

U+5BE7

U+5BDD

U+5BE2

U+5C02

U+5C08

U+5C06

U+5C07

U+5C13

U+5C14

U+5C19

U+5C1A

U+5C2A

U+5C2B

U+5C36

U+5C37

U+5C4F

U+5C5B

U+5CE5

U+5D22

U+5DD3

U+5DD4

U+5E21

U+5E32

U+5E2F

U+5E36

U+5E76

U+5E77

U+5EC4

U+5ECF

U+5F11

U+5F12

U+5F37

U+5F3A

U+5F39

U+5F3E

U+5F50

U+5F51

U+5F54

U+5F55

U+5F59

U+5F5A

U+5F5B

U+5F5C

U+5F5D

U+5F5E

U+5F65

U+5F66

U+5FB3

U+5FB7

U+5FB4

U+5FB5

U+6075

U+60E0

U+6085

U+60A6

U+609E

U+60AE

U+60B3

U+60EA

U+6120

U+614D

U+613C

U+614E

U+6229

U+622C

U+622F

U+6231

U+6236

U+6237

U+6238

U+623B

U+623E

U+629B

U+62CB

U+629C

U+62D4

U+6329

U+635D

U+633F

U+63D2

U+63F7

U+634F

U+63D1

U+635C

U+641C

U+63B2

U+63ED

U+63FA

U+6416

U+6447

U+63FE

U+6435

U+6483

U+64CA

U+654E

U+6559

U+6553

U+655A

U+65E2

U+65E3

U+6602

U+663B

U+665A

U+6669

U+66A8

U+66C1

U+66FD

U+66FE

U+67B4

U+67FA

U+67E5

U+67FB

U+67F5

U+6805

U+68B2

U+68C1

U+6961

U+6986

U+6982

U+69EA

U+6985

U+69B2

U+699D

U+6A27

U+69C7

U+69D9

U+69D8

U+6A23

U+6A2A

U+6A6B

U+6B65

U+6B69

U+6B72

U+6B73

U+6B7F
歿
U+6B81
歿
U+6BBB

U+6BBC

U+6BC0

U+6BC1

U+6BCE

U+6BCF

U+6C32

U+6C33

U+6C5A

U+6C61

U+6C92

U+6CA1

U+6D44

U+6DE8

U+6D89

U+6E09

U+6D97

U+6D9A

U+6D99

U+6DDA

U+6DE5

U+6E0C

U+6DF8
?#91;
U+6E05

U+6E07

U+6E34

U+6E29

U+6EAB

U+6E88

U+6F59

U+6E89

U+6F11

U+6EDA

U+6EFE

U+6F5B

U+6FF3

U+7028

U+702C

U+70BA

U+7232

U+712D

U+7162

U+7155

U+7199

U+7174

U+7185

U+72B6

U+72C0

U+7464

U+7476

U+74F6

U+7501

U+7522

U+7523

U+75E9

U+7626

U+76A1

U+76A5

U+771E

U+771F

U+773E

U+8846

U+7814

U+784F

U+797F
祿
U+7984
祿
U+79BF
禿
U+79C3
禿
U+7A05

U+7A0E

U+7A42

U+7A57

U+7B5D

U+7B8F

U+7BB3

U+7C08

U+7BE1

U+7C12

U+7CA4

U+7CB5

U+7D55

U+7D76

U+7DA0

U+7DD1

U+7DD2

U+7DD6

U+7DE3

U+7E01

U+7DFC

U+7E15

U+7E48

U+7E66

U+7FAE

U+7FB9

U+7FF6

U+7FFA

U+80FC

U+8141

U+812B

U+8131

U+817D

U+8183

U+8203

U+8204

U+820D

U+820E

U+8216

U+8217

U+8358

U+838A

U+83D1

U+8458

U+8480

U+8495

U+848B

U+8523

U+848D

U+853F

U+8570

U+8580

U+85AB

U+85B0

U+85F4

U+860A

U+865A

U+865B

U+86FB

U+8715

U+885B

U+885E

U+886E

U+889E

U+88C5

U+88DD

U+8A2E

U+8A7D

U+8AAA

U+8AAC

U+8ACC

U+8AEB

U+8B20

U+8B21

U+8C5C

U+8C63

U+8D70

U+8D71

U+8EFF
軿
U+8F27

U+8F1C

U+8F3A

U+8F3C

U+8F40

U+8FBE

U+8FD6

U+8FF8

U+902C

U+9059

U+9065

U+90A2

U+90C9

U+90CE

U+90DE

U+90F7

U+9109

U+9115

U+9196

U+919E

U+91A4

U+91AC

U+9203

U+9292

U+92B3

U+92ED

U+9304

U+9332

U+932C

U+934A

U+93AD

U+93AE

U+95B1

U+95B2

U+9667

U+9689

U+9751

U+9752

U+9759

U+975C

U+976D

U+9771

U+9839

U+983D

U+984F

U+9854

U+985A

U+985B

U+98EE

U+98F2

U+9905

U+9920

U+99B1

U+99C4

U+99E2

U+9A08

U+9AA9

U+9AAB

U+9AD8

U+9AD9

U+9AEA

U+9AEE

U+9B2C

U+9B2D

U+9C1B

U+9C2E

U+9CEF

U+9CF3

U+9D87

U+9DAB

U+9DC6

U+9DCF

U+9EAA

U+9EAB

U+9EBC

U+9EBD

U+9EC3

U+9EC4

U+9ED1

U+9ED2

問題

擴展B區使用了輔助平面來擺放漢字,以致不少字處理軟體都不能支持。例如,Microsoft Office2000 或之前的版本,即使計算機擁有擴展B區漢字字型,也只會顯示兩個方格。
另外,因擴展B區在整理上有缺陷,收錄了以下5個本來應該與其他漢字統一的字:
· U+20457 𠑗 =U+34A8 㒨
· U+2420E 𤈎 =U+3DB7 㶷
· U+27144 𧅄 =U+8641 虁
· U+23515 𣔕 =U+204F2 𠓲
· U+249E9 𤧩 =U+249BC 𤦼
而在 WG2 N1155 檔案中,亦列出了152對可考慮統一的漢字。

相關詞條

熱門詞條

聯絡我們