您现在的位置：程式師世界 >> 編程語言 > >> 更多編程語言 >> Python

python encode和decode函數說明

編輯：Python

字符串編碼常用類型：utf-8,gb2312,cp936,gbk等。

python中，我們使用decode()和encode()來進行解碼和編碼

在python中，使用unicode類型作為編碼的基礎類型。即

decode encode

str ---------> unicode --------->str

u = u'中文' #顯示指定unicode類型對象u
str = u.encode('gb2312') #以gb2312編碼對unicode對像進行編碼
str1 = u.encode('gbk') #以gbk編碼對unicode對像進行編碼
str2 = u.encode('utf-8') #以utf-8編碼對unicode對像進行編碼
u1 = str.decode('gb2312')#以gb2312編碼對字符串str進行解碼，以獲取unicode
u2 = str.decode('utf-8')#如果以utf-8的編碼對str進行解碼得到的結果，將無法還原原來的unicode類型

如上面代碼，str\str1\str2均為字符串類型（str）,給字符串操作帶來較大的復雜性。

好消息來了，那就是python3，在新版本的python3中，取消了unicode類型，代替它的是使用unicode字符的字符串類型(str),字符串類型（str）成為基礎類型如下所示，而編碼後的變為了字節類型(bytes)，但是兩個函數的使用方法不變：

decode encode

bytes ------> str(unicode)------>bytes

u = '中文' #指定字符串類型對象u
str = u.encode('gb2312') #以gb2312編碼對u進行編碼，獲得bytes類型對象str
u1 = str.decode('gb2312')#以gb2312編碼對字符串str進行解碼，獲得字符串類型對象u1
u2 = str.decode('utf-8')#如果以utf-8的編碼對str進行解碼得到的結果，將無法還原原來的字符串內容

避免不了的是，文件讀取問題：

假如我們讀取一個文件，文件保存時，使用的編碼格式，決定了我們從文件讀取的內容的編碼格式，例如，我們從記事本新建一個文本文件test.txt, 編輯內容，保存的時候注意，編碼格式是可以選擇的，例如我們可以選擇gb2312,那麼使用python讀取文件內容，方式如下：

f = open('test.txt','r')
s = f.read() #讀取文件內容,如果是不識別的encoding格式（識別的encoding類型跟使用的系統有關），這裡將讀取失敗
'''假設文件保存時以gb2312編碼保存'''
u = s.decode('gb2312') #以文件保存格式對內容進行解碼，獲得unicode字符串
'''下面我們就可以對內容進行各種編碼的轉換了'''
str = u.encode('utf-8')#轉換為utf-8編碼的字符串str
str1 = u.encode('gbk')#轉換為gbk編碼的字符串str1
str1 = u.encode('utf-16')#轉換為utf-16編碼的字符串str1

python給我們提供了一個包codecs進行文件的讀取，這個包中的open()函數可以指定編碼的類型：

import codecs
f = codecs.open('text.text','r+',encoding='utf-8')#必須事先知道文件的編碼格式，這裡文件編碼是使用的utf-8
content = f.read()#如果open時使用的encoding和文件本身的encoding不一致的話，那麼這裡將將會產生錯誤
f.write('你想要寫入的信息')
f.close()

encode()和decode()

decode英文意思是解碼，encode英文原意編碼
字符串在Python內部的表示是unicode編碼，因此，在做編碼轉換時，通常需要以unicode作為中間編碼，即先將其他編碼的字符串解碼（decode）成unicode，再從unicode編碼（encode）成另一種編碼。
decode的作用是將其他編碼的字符串轉換成unicode編碼，如str1.decode('gb2312')，表示將gb2312編碼的字符串str1轉換成unicode編碼。
encode的作用是將unicode編碼轉換成其他編碼的字符串，如str2.encode('gb2312')，表示將unicode編碼的字符串str2轉換成gb2312編碼。
總得意思:想要將其他的編碼轉換成utf-8必須先將其解碼成unicode然後重新編碼成utf-8,它是以unicode為轉換媒介的如： s='中文' 如果是在utf8的文件中，該字符串就是utf8編碼，如果是在gb2312的文件中，則其編碼為gb2312。這種情況下，要進行編碼轉換，都需要先用 decode方法將其轉換成unicode編碼，再使用encode方法將其轉換成其他編碼。通常，在沒有指定特定的編碼方式時，都是使用的系統默認編碼創建的代碼文件