utf-7

簡介

SMTP 為基本的電子郵件傳輸標準之一，其指明了傳輸格式為 US-ASCII ，並且不允許超過 ASCII 所定義的字元範圍以外的位元值，也就是說八位元的字串將無法正常的被傳輸。 MIME （RFC 2045 ~ 2049）擴展了網路郵件以支援不同的媒體類型以及字元集，包含 UTF-8 與 UTF-16 的字元集皆可被指定使用。但由於 MIME 並未明確將 Unicode 定義為可支援的字元集，並且也沒有說明其應如何編碼，這使得既有的 SMTP 傳輸架構下仍舊無法保證可正確的處理 8 位元資料。base64 編碼也有其問題，例如甚至連純英文的 US-ASCII 字元也可能會變成不可辨認；至於像是 UTF-8 與 quoted-printable 的編碼結合，則需要 6 ～ 9 個位元來為非 ASCII 的字元（Unicode 的基本多文種平面中定義的字元）進行編碼，至於在基本多文種平面（BMP）以外的字原則需要多達 12 位元的長度才能完成編碼，這顯得相當沒有效率。

UTF-7 首次被提出是在一個實驗性的通訊協定里（RFC 1642，A Mail-Safe Transformation Format of Unicode），這份 RFC（Request for Comments）提案後來因 RFC 2152 的提出而被取代（RFC 2152 本身為新聞型（informational）的文案）。在 RFC 2152 當中明確的指出該份 RFC 本身不為網際網路的標準做出任何明確的定義（明列於文案前頭的 Status of this Memo ）。儘管這份 RFC 2152 在 IANA （Internet Assigned Numbers Authority）的字元集列表里被引述為 UTF-7，然而 UTF-7 本身並非 Unicode 的標準之一，即使在目前最新的 Unicode 5.0 里也僅列出 UTF-8 、 UTF-16 和 UTF-32 。

如同引言所提到的，由於在過去 SMTP 的傳輸僅能接受 7 位元的字元，而當時 Unicode 並無法直接滿足既有的 SMTP 傳輸限制，在這樣地背景下 UTF-7 被提出。嚴格來說 UTF-7 不能算是 Unicode 所定義的字元集之一，較精確的來說， UTF-7 是提供了一種將 Unicode 轉換為 7 位元 US-ASCII 字元的轉換方式。

有些字元本身可以直接以單一的 ASCII 字元來呈現。第一個群組被稱作“direct characters”，其中包含了 62 個數字與英文字母，以及包含了九個符號字元：' ( ) , - . / : ?。這些“direct characters”被認為可以很安全的直接在檔案里呈現。另一個主要的群組稱作“optional direct characters”，其中包含了所有可被列印的字元，這些字元在 U+0020 ～ U+007E 之間，除了~ \ +和空白字元以外。這些“optional direct characters”的使用雖可減少空間的使用也可增加人的可閱讀性，但卻會因為一些不良設計的郵件閘道而會產生一些錯誤，導致必須使用額外的跳脫字元。

utf-7

基本介紹

簡介

演算法

安全性

範例

相關詞條

熱門詞條