編碼模型

編碼與解碼

機器存儲數據只有01數據形式，讀取數據的時候，只有藉助編碼方案的映射，才能轉換為人類可讀的數據形式；保存數據的時候，也同樣需要藉助於編碼方案，將其轉換成01數據形式。

常見的編碼方案有ASCII、Latin、GBK和UTF8等。

讀取過程（解碼）：01數據—>編碼方案映射轉換—>人類可讀的數據形式。

保存過程（編碼）：人類可讀的數據形式—>編碼方案映射轉換—>01數據。

01數據以位元組為單位進行展示，那么可得到位元組流；人類可讀的數據以字元為單位進行展示，那么可得到字元流。二者之間的關係如圖1。

編碼模型

圖2為編碼模型的一般形式。模型就是首先選擇一種編碼方案，然後使用該編碼方案編碼字元流中的字元得到對應的位元組序列，進而構成位元組流，實現從字元流到位元組流的編碼過程。

在編碼過程中，如果在選定的編碼方案中不能找到與待編碼字元相應的映射記錄，那么有兩種解決方案：

（1）直接報錯，停止編碼；

（2）直接編碼成某個特殊的位元組序列，使用該種解決方案後，就不能從得到的位元組流解碼得到原始的字元流，即存在信息丟失。

編碼方案

ASCII

ASCII（American Standard Code for Information Interchange，美國標準信息交換代碼）是基於拉丁字母的一套電腦編碼系統，主要用於顯示現代英語和其他西歐語言。它是現今最通用的單位元組編碼系統，並等同於國際標準ISO/IEC 646。

ASCII總共有 128 個字元，用一個位元組的低 7 位表示，0~31 是控制字元如換行回車刪除等；32~126 是列印字元，可以通過鍵盤輸入並且能夠顯示出來。

擴展的ASCII字元滿足了對更多字元的需求。擴展的ASCII包含ASCII中已有的128個字元（數字0–32顯示在下圖中），又增加了128個字元，總共是256個。即使有了這些更多的字元，許多語言還是包含無法壓縮到256個字元中的符號。因此，出現了一些ASCII的變體來囊括地區性字元和符號。例如，許多軟體程式把ASCII表（又稱作ISO8859-1）用於北美、西歐、澳大利亞和非洲的語言。

GBK

GBK，全稱《漢字內碼擴展規範》，是國家技術監督局為 windows95 所制定的新的漢字內碼規範，它的出現是為了擴展 GB2312，加入更多的漢字，它的編碼範圍是 8140~FEFE（去掉 XX7F）總共有 23940 個碼位，它能表示 21003 個漢字，它的編碼是和 GB2312 兼容的，也就是說用 GB2312 編碼的漢字可以用 GBK 來解碼，並且不會有亂碼。

UTF-8

UTF-16 統一採用兩個位元組表示一個字元，雖然在表示上非常簡單方便，但是也有其缺點，有很大一部分字元用一個位元組就可以表示的現在要兩個位元組表示，存儲空間放大了一倍，在現在的網路頻寬還非常有限的今天，這樣會增大網路傳輸的流量，而且也沒必要。而 UTF-8 採用了一種變長技術，每個編碼區域有不同的字碼長度。不同類型的字元可以是由 1~6 個位元組組成。

編碼模型

基本介紹

編碼與解碼

編碼模型

編碼方案

ASCII

GBK

UTF-8

示例

相關詞條

熱門詞條