decode的作用是將其他編碼的字符串轉換成unicode編碼,如str1.decode(‘gb2312′),表示將gb2312編碼的字符串轉換成unicode編碼。
encode的作用是將unicode編碼轉換成其他編碼的字符串,如str2.encode(‘gb2312′),表示將unicode編碼的字符串轉換成gb2312編碼。
在某些IDE中,字符串的輸出總是出現亂碼,甚至錯誤,其實是由於IDE的結果輸出控制台自身不能顯示字符串的編碼,而不是程序本身的問題。
如在UliPad中運行如下代碼:
s=u”中文”
print s
會提示:UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 0-1: ordinal not in range(128)。這是因為UliPad在英文WindowsXP上的控制台信息輸出窗口是按照ascii編碼輸出的(英文系統的默認編碼是ascii),而上面代碼中的字符串是Unicode編碼的,所以輸出時產生了錯誤。
將最後一句改為:print s.encode(‘gb2312′)
則能正確輸出“中文”兩個字。
若最後一句改為:print s.encode(‘utf8′)
則輸出:\xe4\xb8\xad\xe6\x96\x87,這是控制台信息輸出窗口按照ascii編碼輸出utf8編碼的字符串的結果。