您现在的位置：程式師世界 >> 編程語言 > >> 更多編程語言 >> Python

數據類型和變量-Python

編輯：Python

大小寫分明！！

在最新的Python 3版本中，字符串是以Unicode編碼的，也就是說，Python的字符串支持多語言，例如：

>>> print('包含中文的str')
包含中文的str

對於單個字符的編碼，Python提供了ord()函數獲取字符的整數表示，chr()函數把編碼轉換為對應的字符：

>>> ord('A')65>>> ord('中')20013>>> chr(66)'B'>>> chr(25991)'文'

如果知道字符的整數編碼，還可以用十六進制這麼寫str：

>>> 'u4e2du6587''中文'

兩種寫法完全是等價的。

由於Python的字符串類型是str，在內存中以Unicode表示，一個字符對應若干個字節。如果要在網絡上傳輸，或者保存到磁盤上，就需要把str變為以字節為單位的bytes。

Python對bytes類型的數據用帶b前綴的單引號或雙引號表示：

x = b'ABC'

要注意區分'ABC'和b'ABC'，前者是str，後者雖然內容顯示得和前者一樣，但bytes的每個字符都只占用一個字節。

以Unicode表示的str通過encode()方法可以編碼為指定的bytes，例如：

>>> 'ABC'.encode('ascii')
b'ABC'
>>> '中文'.encode('utf-8')
b'xe4xb8xadxe6x96x87'
>>> '中文'.encode('ascii')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

純英文的str可以用ASCII編碼為bytes，內容是一樣的，含有中文的str可以用UTF-8編碼為bytes。含有中文的str無法用ASCII編碼，因為中文編碼的范圍超過了ASCII編碼的范圍，Python會報錯。

在bytes中，無法顯示為ASCII字符的字節，用x##顯示。

反過來，如果我們從網絡或磁盤上讀取了字節流，那麼讀到的數據就是bytes。要把bytes變為str，就需要用decode()方法：

>>> b'ABC'.decode('ascii')'ABC'>>> b'xe4xb8xadxe6x96x87'.decode('utf-8')'中文'

要計算str包含多少個字符，可以用len()函數：

>>> len('ABC')3>>> len('中文')2

len()函數計算的是str的字符數，如果換成bytes，len()函數就計算字節數：

>>> len(b'ABC')3>>> len(b'xe4xb8xadxe6x96x87')6>>> len('中文'.encode('utf-8'))6

可見，1個中文字符經過UTF-8編碼後通常會占用3個字節，而1個英文字符只占用1個字節。

在操作字符串時，我們經常遇到str和bytes的互相轉換。為了避免亂碼問題，應當始終堅持使用UTF-8編碼對str和bytes進行轉換。

由於Python源代碼也是一個文本文件，所以，當你的源代碼中包含中文的時候，在保存源代碼時，就需要務必指定保存為UTF-8編碼。當Python解釋器讀取源代碼時，為了讓它按UTF-8編碼讀取，我們通常在文件開頭寫上這兩行：

#!/usr/bin/env python3# -*- coding: utf-8 -*-

第一行注釋是為了告訴Linux/OS X系統，這是一個Python可執行程序，Windows系統會忽略這個注釋；

第二行注釋是為了告訴Python解釋器，按照UTF-8編碼讀取源代碼，否則，你在源代碼中寫的中文輸出可能會有亂碼。

申明了UTF-8編碼並不意味著你的.py文件就是UTF-8編碼的，必須並且要確保文本編輯器正在使用UTF-8 without BOM編碼：

如果.py文件本身使用UTF-8編碼，並且也申明了# -*- coding: utf-8 -*-，打開命令提示符測試就可以正常顯示中文：

格式化

最後一個常見的問題是如何輸出格式化的字符串。我們經常會輸出類似'親愛的xxx你好！你xx月的話費是xx，余額是xx'之類的字符串，而xxx的內容都是根據變量變化的，所以，需要一種簡便的格式化字符串的方式。

在Python中，采用的格式化方式和C語言是一致的，用%實現，舉例如下：

>>> 'Hello, %s' % 'world''Hello, world'>>> 'Hi, %s, you have $%d.' % ('Michael', 1000000)'Hi, Michael, you have $1000000.'

你可能猜到了，%運算符就是用來格式化字符串的。在字符串內部，%s表示用字符串替換，%d表示用整數替換，有幾個%?占位符，後面就跟幾個變量或者值，順序要對應好。如果只有一個%?，括號可以省略。

常見的占位符有：

整數

浮點數

字符串

十六進制整數

其中，格式化整數和浮點數還可以指定是否補0和整數與小數的位數：

>>> '%2d-%02d' % (3, 1)' 3-01'>>> '%.2f' % 3.1415926'3.14'

如果你不太確定應該用什麼，%s永遠起作用，它會把任何數據類型轉換為字符串：

>>> 'Age: %s. Gender: %s' % (25, True)'Age: 25. Gender: True'

有些時候，字符串裡面的%是一個普通字符怎麼辦？這個時候就需要轉義，用%%來表示一個%：

>>> 'growth rate: %d %%' % 7'growth rate: 7 %'

練習

小明的成績從去年的72分提升到了今年的85分，請計算小明成績提升的百分點，並用字符串格式化顯示出'xx.x%'，只保留小數點後1位：

# -*- coding: utf-8 -*-
s1 = 72
s2 = 85

Run

小結

Python 3的字符串使用Unicode，直接支持多語言。

str和bytes互相轉換時，需要指定編碼。最常用的編碼是UTF-8。Python當然也支持其他編碼方式，比如把Unicode編碼成GB2312：

>>> '中文'.encode('gb2312')b'xd6xd0xcexc4'

但這種方式純屬自找麻煩，如果沒有特殊業務要求，請牢記僅使用UTF-8編碼。

格式化字符串的時候，可以用Python的交互式命令行測試，方便快捷。

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
s = 'Python-中文'
print(s)
b = s.encode('utf-8')
print(b)
print(b.decode('utf-8'))

上一篇文章： 21天學Python --- 打卡3: Python ＆＆ Json
下一篇文章： Python是如何表示時間的？2個模塊、3種方式，1文搞定~

Python

Drawing with PLT in Python

python of use plt drawing impo

Python learning data analysis module pandas

目錄生成一維數組生成DataFrame2D data vie

openerp條碼使用方法詳解

#<!--<td><barCode

Usage of split function in Python

This split Isnt it slicing and

Python technology application in various fields (Earth Science, meteorology, machine learning, ocean, etc.)

Python Advanced training cours

Developing esp32 firmware burning and testing with micropython

Chen Tuo 2022/06/10-2022/06/11

没有相关文章

熱門圖文

HDU 1104 Remainder (BFS（廣度優先搜索）) HLJOJ1021(倒水問題) asp.net 數據綁定使用eval 時候報字符文本中的字符太多問題的解決方法正確的PHP匹配UTF-8中文的正則表達式， [python] to FaceRecognizeSys [Doing...] Asp.net之數據過濾淺析多附件上傳組件演示 PHP 判斷數組是否為空的5大方法

欄目導航