程式師世界 >> 編程語言 >> .NET網頁編程 >> C# >> C#入門知識 >> LZW數據緊縮算法的道理剖析

LZW數據緊縮算法的道理剖析

編輯：C#入門知識

LZW數據緊縮算法的道理剖析。本站提示廣大學習愛好者：（LZW數據緊縮算法的道理剖析）文章只能為提供參考，不一定能成為您想要的結果。以下是LZW數據緊縮算法的道理剖析正文

1.LZW的全稱是甚麼?

　　Lempel-Ziv-Welch (LZW).

2. LZW的簡介和緊縮道理是甚麼？

　　LZW緊縮算法是一種新鮮的緊縮辦法，由Lemple-Ziv-Welch 三人配合發明，用他們的名字定名。它采取了一種先輩的串表緊縮，將每一個第一次湧現的串放在一個串表中，用一個數字來表現串，緊縮文件只存貯數字，則不存貯串，從而使圖像文件的緊縮效力獲得較年夜的進步。奧妙的是，不論是在緊縮照樣在解緊縮的進程中都能准確的樹立這個串表，緊縮或解緊縮完成後，這個串表又被拋棄。

　　LZW算法中，起首樹立一個字符串表，把每個第一次湧現的字符串放入串表中，並用一個數字來表現，這個數字與此字符串在串表中的地位有關，並將這個數字存入緊縮文件中，假如這個字符串再次湧現時，便可用表現它的數字來取代，並將這個數字存入文件中。緊縮完成後將串表拋棄。如"print" 字符串，假如在緊縮時用266表現，只需再次湧現，均用266表現，並將"print"字符串存入串表中，在圖像解碼時碰到數字266，便可從串表中查出266所代表的字符串"print"，在解緊縮時，串表可以依據緊縮數據從新生成。

3.在具體引見算法之前，先列出一些與該算法相干的概念和辭匯

　　1)'Character': 字符，一種基本數據元素，在通俗文本文件中，它占用1個零丁的byte，而在圖象中，它倒是一種代表給定像素色彩的索引值。
　　2)'CharStream'：數據文件中的字符流。
　　3)'Prefix':前綴。如這個單詞的寄義一樣，代表著在一個字符最直接的前一個字符。一個前綴字符長度可認為0,一個prefix和一個character可以構成一個字符串(string),
　　4)'Suffix': 後綴，是一個字符，一個字符串可以由(A,B)來構成，A是前綴,B是後綴,當A長度為0的時刻，代表Root，根
　　5)'Code:碼,用於代表一個字符串的地位編碼
　　6)'Entry'，一個Code和它所代表的字符串(string)

4.緊縮算法的簡略示例，不是完整完成LZW算法，只是從最直不雅的角度看lzw算法的思惟

　　對原始數據ABCCAABCDDAACCDB停止LZW緊縮

　　原始數據中，只包含4個字符(Character),A,B,C,D,四個字符可以用一個2bit的數表現，0-A,1-B,2-C,3-D,從最直不雅的角度看，原始字符串存在反復字符：ABCCAABCDDAACCDB，用4代表AB,5代表CC，下面的字符串可以替換表現為:45A4CDDAA5DB,如許是否是就比原數據短了一些呢！

5.LZW算法的實用規模

　　為了差別代表串的值(Code)和本來的單個的數據值(String)，須要使它們的數值域不重合，下面用0-3來代表A-D,那末AB就必需用年夜於3的數值來取代，再舉別的一個例子，本來的數值規模可以用8bit來表現，那末就以為原始的數的規模是0～255，緊縮法式生成的標號的規模就不克不及為0～255（假如是0-255，就反復了）。只能從256開端，然則如許一來就跨越了8位的表現規模了，所以必需要擴大數據的位數，至多擴大一名，然則如許不是增長了1個字符占用的空間了麼？然則卻可以用一個字符代表幾個字符，好比本來255是8bit,然則如今用256來表現254，255兩個數，照樣劃得來的。從這個道理可以看出LZW算法的實用規模是原始數據串最好是有年夜量的子串屢次反復湧現，反復的越多，緊縮後果越好。反之則越差，能夠真的不減反增了。

6.LZW算法中特別標志

　　跟著新的串(string)赓續被發明，標號也會赓續地增加，假如原數據過年夜，生成的標號集（string table)會愈來愈年夜，這時候候操作這個聚集就會發生效力成績。若何防止這個成績呢?Gif在采取lzw算法的做法是當標號集足夠年夜的時刻，就不克不及增年夜了，爽性從頭開端再來，在這個地位要拔出一個標號，就是消除標記CLEAR，表現從這裡我從新開端結構字典，之前的一切標志作廢，開端應用新的標志。
這時候候又有一個成績湧現，足夠年夜是多年夜？這個標號集的年夜小為比擬適合呢？實際上是標號集年夜小越年夜，則緊縮比率就越高，但開支也越高。普通依據處置速度和內存空間連個身分來選定。GIF標准劃定的是12位，跨越12位的表達規模就推倒重來，而且GIF為了進步緊縮率，采取的是變長的字長。好比說原始數據是8位，那末一開端，先加上一名再說，開端的字長就成了9位，然後開端加標號，當標號加到512時，也就是跨越9為所能表達的最年夜數據時，也就意味著前面的標號要用10位字長能力表現了，那末從這裡開端，前面的字長就是10位了。依此類推，到了2^12也就是4096時，在這裡插一個消除標記，從前面開端，從9位再來。
GIF劃定的消除標記CLEAR的數值是原始數據字長表現的最年夜值加1，假如原始數據字長是8，那末消除標記就是256，假如原始數據字長為4那末就是16。別的GIF還劃定了一個停止標記END，它的值是消除標記CLEAR再加1。因為GIF劃定的位數有1位（單色圖），4位（16色）和8位（256色），而1位的情形下假如只擴大1位，只能表現4種狀況，那末加上一個消除標記和停止標記就用完了，所以1位的情形下就必需擴大到3位。其它兩種情形初始的字長就為5位和9位。此處參照了http://blog.csdn.net/whycadi/

7.用lzw算法緊縮原始數據的示例剖析

　　輸出流，也就是原始的數據為:255,24,54,255,24,255,255,24,5,123,45,255,24,5,24,54..................
　　這個正好可以看到是gif文件中像素數組的一部門，若何對它停止緊縮
　　由於原始數據可以用8bit來表現，故消除標記Clear=255+1 =256,停止標記為End=256+1=257，今朝標號集為
　　0 1 2 3 .................................................................................255 CLEAR END
　　第一步,讀取第一個字符為255,在標志內外面查找，255曾經存在，我們曾經熟悉255了，不做處置
　　第二步,取第二個字符，此時前綴為A,構成以後的Entry為(255,24),在標志聚集不存在，我們其實不熟悉255,24好，此次你小子來了，我就記住你，把它在標志聚集中標志為258,然後輸入前綴A,保存後綴24，並作為下一次的前綴（後綴變前綴)
　　第三步，取第三個字符為54，以後Entry(24,54),不熟悉，記載(24,54)為標號259,並輸入24,後綴變前綴
　　第四部：取第四個字符255,Entry=(54,255),不熟悉，記載(54,255)為標號260,輸入54,後綴變前綴
　　第五步取第5個字符24，entry=(255,24),啊，熟悉你，這不是老258麼，因而把字符串規約為258，並作為前綴
　　第六步取第六個字符255,entry=(258,255)，不熟悉，記載(258,255)為261,輸入258,後綴變前綴
　　.......
　　一向處置到最初一個字符,
　　用一個表記載處置進程
　　CLEAR=256,END=257

第幾步前綴後綴 Entry 熟悉(Y/N) 輸入標號 1 255 （，255） 2 255 24 (255,24) N 255 258 3 24 54 (24,54) N 24 259 4 54 255 (54,255) N 54 260 5 255 24 (255,24) Y 6 258 255 (258,255) N 258 261 7 255 255 (255,255) N 255 262

.....

下面這個示例有些不克不及完全表現，別的一個例子是
原輸出數據為:A B A B A B A B B B A B A B A A C D A C D A D C A B A A A B A B .....
采取LZW算法對其停止緊縮，緊縮進程用一個表來表述為:
留意原數據中只包括4個character,A,B,C,D
用兩bit便可表述，依據lzw算法，起首擴大一名變成3為,Clear=2的2次方+1=4; End=4+1=5;
初始標號集因該為

0 1 2 3 4 5 A B C D Clear End

而緊縮進程為:
第幾步前綴後綴 Entry 熟悉(Y/N) 輸入標號 1 A （，A） 2 A B (A,B) N A 6 3 B A (B,A) N B 7 4 A B (A,B) Y 5 6 A (6,A) N 6 8 6 A B (A,B) Y 7 6 A (6,A) Y 8 8 B (8,B) N 8 9 9 B B (B,B) N B 10 10 B B (B,B) Y 11 10 A (10,A) N 10 11 12 A B (A,B) Y

.....
當停止到第12步的時刻，標號集應當為
0 1 2 3 4 5 6 7 8 9 10 11 A B C D Clear End AB BA 6A 8B BB 10A

8.LZW算法的偽代碼完成

STRING = get input character
WHILE there are still input characters DO
 CHARACTER = get input character
 IF STRING+CHARACTER is in the string table then
  STRING = STRING+character
 ELSE
  output the code for STRING
  add STRING+CHARACTER to the string table
  STRING = CHARACTER
 END of IF
END of WHILE
output the code for STRING

9.LZW算法的流程圖

沒有安visio,畫了一個，比擬好看，