簡介
ZIP檔案格式是一種數據壓縮和文檔儲存的檔案格式,原名Deflate,發明者為
菲爾·卡茨(Phil Katz),他於1989年1月公布了該格式的資料。ZIP通常使用後綴名“.zip”,它的
MIME格式為application/zip。目前,ZIP格式屬於幾種主流的壓縮格式之一,其競爭者包括
RAR格式以及開放源碼的
7z格式。從性能上比較,RAR及7z格式較ZIP格式壓縮率較高,而
7-Zip由於提供了免費的壓縮工具而逐漸在更多的領域得到套用。
Microsoft從
Windows ME作業系統開始內置對zip格式的支持,即使用戶的計算機上沒有安裝解壓縮軟體,也能打開和製作zip格式的壓縮檔案,
OS X和流行的
Linux作業系統也對zip格式提供了類似的支持。因此如果在網路上傳播和分發檔案,zip格式往往是最常用的選擇。
歷史
前身
1985年一家名為
SEA(System Enhancement Associates,系統增強夥伴)的小公司開發了一個在
MS-DOS平台下的
商業壓縮軟體,名為
ARC。當時的軟體發行方式與現在略有不同,用戶購買了軟體,除了得到軟體的
執行檔還包括一份
C語言的
原始碼。當時的卡茨與很多用計算機的平民一樣,缺乏資金購買大量的
商業軟體,當時卡茨從網上下載了一份ARC的C語言原始碼,並用
彙編語言將其全新編寫並
編譯出來。卡茨將這個軟體名為:PKARC(Phillip Katz' ARC)。卡茨製作的新軟體PKARC因為是使用彙編語言重新編寫,因為是參照原始碼編寫的,所以完全兼容ARC並且性能上比ARC高。卡茨當時將這個新軟體上傳到網路上面。顯然,卡茨此舉造成對SEA公司的侵權。SEA最初希望通過聯絡卡茨使PKARC成為SEA公司旗下的一款產品,後來卡茨拒絕了。最終,雙方對簿公堂,結果是卡茨敗訴,卡茨被判以對SEA公司的賠款以及停止發放PKARC。後來,卡茨在研發過程中的PKARC續作也被迫重新改寫所有代碼,PKARC其實就是下文提及的PKZIP的前身,但Phil Katz沒有從PKARC賺到一分錢,還是窮困潦倒,又因為酗酒等眾多原因,2000年死在一個汽車旅館中。
誕生
這場官司過後幾周,卡茨就製作出新壓縮軟體
PKZIP(Phillip Katz' ZIP),這款全新的軟體比ARC的壓縮率、壓縮性能都要高許多,並且包含更多功能。此後,卡茨還將ZIP的所有技術參數公諸於眾。ZIP(含義“速度”)這一名稱是由卡茨的朋友羅伯特·馬宏利(Robert Mahoney)建議的。他們想暗示,他們的產品比ARC在一定時間內更快速。這個名字往往被寫成大寫字母,因為在DOS系統內,通常都是使用大寫字母作為後綴名的。(由於MS-DOS運行在
FAT檔案系統上)
Winzip的面世
Windows 3.0面世之前,有兩種格式與ZIP同樣流行,一個是
LHA(LHArc),另一個是
ARJ(Archiver Robert Jung),直至到1995年,這3種壓縮格式都是
PC套用的主流。之後,1995年,微軟發布了
Windows95,當時從
DOS轉移到Windows的用戶們,極度渴求對
圖形界面下的優良軟體,Winzip以其優良的性能以及不太羞澀的
圖形用戶界面吸引了用戶的目光,在當時占有大量的市場占有量,其實,當時的
WinZip僅僅是一個調用DOS資源的
GUI外殼,但是其從Windows 3就開始的製作經驗使其GUI性能和外觀都比當時的流行軟體要好。很快的,WinZip就成為了當時一個很流行的軟體。同時也帶動了ZIP的傳播,由於在前期太受歡迎,使到後期很多用戶都以為,是WinZip創造了ZIP,其實這是一個誤解,關於WinZip更詳細的資訊,參見
WinZip。
發展
因格式開放且免費。越來越多的軟體內嵌支持打開Zip檔案。這時,Zip檔案越來越像一個經過壓縮的透明資料夾。
危機
基本上,Zip檔案的發展都是由PKware公司與Winzip所推動。然而,其兩家公司就某些問題上互相猜疑,導致發展緩慢。人們目前最想在Zip檔案實現的目標,就是加強目前Zip檔案的加密能力。就目前而言,Zip的檔案加密能力弱得可憐,僅憑單單一個口令保護,根本滿足不了安全需求。雖然卡茲在世時公開了格式,但是當時製作的時候留有為日後升級的空間。而Winzip僅僅是一個用戶,根本無法發布新標準,其標準的制訂權依然保留在PKware手中。2002年時,PKware開發了支持256位AES加密的PKZIP 5.0,但是Winzip在2003年發布的Winzip 9卻被證明了無法與之兼容。雙方都互相指責對方違背了Zip的自由開放精神。這是Zip自誕生日起,第一個對於它來說最嚴峻的挑戰。
檔案頭
使用任何一種文本編輯器打開Zip檔案,都能看到前兩個字母為:PK
技術
ZIP是一種相當簡單的分別壓縮每個檔案的存檔格式。分別壓縮檔案允許不必讀取另外的數據而檢索獨立的檔案;理論上,這種格式允許對不同的檔案使用不同的算法。不管用何種方法,對這種格式的一個告誡是對於包含很多小檔案的時候,存檔會明顯的比壓縮成一個獨立的檔案(在類Unix系統中一個經典的例子是普通的
tar.gz存檔是由一個使用
gzip壓縮的
TAR存檔組成)要大。
ZIP的規約指出檔案可以不經壓縮或者使用不同的壓縮算法來存儲。然而,在實際上,ZIP幾乎差不多總是在使用
卡茨(Katz)的
DEFLATE算法。
在近來一段時間,ZIP加入了包括新的壓縮和加密方法的新特徵,不過這些新特徵並沒有被許多任務具所支持並且沒有得到廣泛套用。
壓縮方法
用來對比壓縮大小使用的是[1]的內容和最大壓縮比。
Shrinking(方法1)
收縮(Shrinking)是LZW的微小調整的一個異體,同樣也受到LZW
專利問題的影響。從來沒有明確的是這項專利是否涵蓋反收縮,不過一些
開放源碼的項目(例如Info-ZIP)決定謹慎行事,在默認的構造里不包含反收縮的支持。
Reducing(方法2-5)
縮小(Reducing)包括壓縮重複位元組序列的組合,然後套用一個基於機率的編碼得到結果。
Imploding(方法6)
爆聚(Imploding)包括使用一個滑動視窗壓縮重複位元組序列,然後使用多重Shannon-Fano樹壓縮得到結果。
Tokenizing(方法7)
令牌化(Tokenizing)的方法數是保留的。PKWARE規約沒有為其定義一個算法。
Deflate和增強的Deflate(方法8和9)
這些方法使用眾所周知的Deflate算法。Deflate允許最大32K的視窗。增強的Deflate允許最大64K的視窗。增強版完成任務稍稍成功一些,但是並沒有被廣泛的支持。
Deflate比較尺寸是52.1MiB(使用pkzip for Windows,版本8.00.0038測試)
增強的Deflate比較尺寸是52.8MiB(使用pkzip for Windows,版本8.00.0038測試)
PKWARE Data Compression Library Imploding(方法10)
PKWARE數據壓縮庫爆聚(PKWARE Data Compression Library Imploding),官方ZIP格式規約就此沒有給出更多的信息。
比較尺寸是61.6MiB(使用pkzip for Windows,版本8.00.0038測試,選擇二進制模式)
方法11
此方法被PKWARE保留。
Bzip2(方法12)
此方法使用眾所周知的bzip2算法。此算法比deflate高效但是並沒有被(基於Windows平台的)工具所支持。
比較尺寸是50.6MiB(使用pkzip for Windows,版本8.00.0038測試)
缺點
由於出現於市場的時間早,今日Zip檔案與其他壓縮格式相比有眾多無法忽視的缺點。
原生並不支持Unicode檔案名稱稱,容易導致一部分的資源共享困難,在東亞文化圈的資源交流尤其顯著;無法與7z相比的壓縮比率以及如WinRAR的Recovery Record修復支持功能的缺乏亦都是其衰微的原因。
參見