以下都是自己的一些學習筆記,可能有寫的不對的地方,還望各位大佬體諒和加以指正。
re 或正則表達式是形成搜索模式的字符序列。
re 可用於檢查字符串是否包含指定的搜索模式。
re 模塊
Python 提供名為 re 的內置包,可用於處理正則表達式。
導入 re 模塊:
import re
Python 中的 re
導入 re 模塊後,就可以開始使用正則表達式了:
檢索字符串以查看它是否以 “China” 開頭並以 “country” 結尾:
import re
txt = "China is a great country"
x = re.search("^China.*country$", txt)
re
模塊提供了一組函數,允許我們檢索字符串以進行匹配:
函數 描述
findall 返回包含所有匹配項的列表
search 如果字符串中的任意位置存在匹配,則返回 Match 對象
split 返回在每次匹配時拆分字符串的列表
sub 用字符串替換一個或多個匹配項
元字符是具有特殊含義的字符:
字符 描述 示例
[] 一組字符 "[a-m]"
\ 示意特殊序列(也可用於轉義特殊字符) "\d"
. 任何字符(換行符除外) "he..o"
^ 起始於 "^hello"
$ 結束於 "world$"
* 零次或多次出現 "aix*"
+ 一次或多次出現 "aix+"
{
} 確切地指定的出現次數 "al{2}"
| 兩者任一 "falls|stays"
() 捕獲和分組
特殊序列指的是 \ 後跟下表中的某個字符,擁有特殊含義:
字符 描述 示例
\A 如果指定的字符位於字符串的開頭,則返回匹配項 "\AThe"
\b 返回指定字符位於單詞的開頭或末尾的匹配項 r"\bain"
r"ain\b"
\B 返回指定字符存在的匹配項,但不在單詞的開頭(或結尾處) r"\Bain"
r"ain\B"
\d 返回字符串包含數字的匹配項(數字 0-9) "\d"
\D 返回字符串不包含數字的匹配項 "\D"
\s 返回字符串包含空白字符的匹配項 "\s"
\S 返回字符串不包含空白字符的匹配項 "\S"
\w 返回一個匹配項,其中字符串包含任何單詞字符
(從 a 到 Z 的字符,從 0 到 9 的數字和下劃線 _ 字符) "\w"
\W 返回一個匹配項,其中字符串不包含任何單詞字符 "\W"
\Z 如果指定的字符位於字符串的末尾,則返回匹配項 "Spain\Z"
集合(Set)是一對方括號 [] 內的一組字符,具有特殊含義:
集合 描述
[arn] 返回一個匹配項,其中存在指定字符(a,r 或 n)之一
[a-n] 返回字母順序 a 和 n 之間的任意小寫字符匹配項
[^arn] 返回除 a、r 和 n 之外的任意字符的匹配項
[0123] 返回存在任何指定數字(0、1、2 或 3)的匹配項
[0-9] 返回 0 與 9 之間任意數字的匹配
[0-5][0-9] 返回介於 0 到 9 之間的任何數字的匹配項
[a-zA-Z] 返回字母順序 a 和 z 之間的任何字符的匹配,小寫或大寫
[+] 在集合中,+、*、.、|、()、$、{
} 沒有特殊含義,因此 [+] 表示:返回字符串中任何 + 字符的匹配項
findall()
函數返回包含所有匹配項的列表。
打印所有匹配的列表:
import re
str = "China is a great country"
x = re.findall("a", str)
print(x)
這個列表以被找到的順序包含匹配項。
如果未找到匹配項,則返回空列表:
如果未找到匹配,則返回空列表:
import re
str = "China is a great country"
x = re.findall("USA", str)
print(x)
search()
函數搜索字符串中的匹配項,如果存在匹配則返回 Match 對象。
如果有多個匹配,則僅返回首個匹配項:
在字符串中搜索第一個空白字符:
import re
str = "China is a great country"
x = re.search("\s", str)
print("The first white-space character is located in position:", x.start())
如果未找到匹配,則返回值 None:
進行不返回匹配的檢索:
import re
str = "China is a great country"
x = re.search("USA", str)
print(x)
split() 函數返回一個列表,其中字符串在每次匹配時被拆分:
在每個空白字符處進行拆分:
import re
str = "China is a great country"
x = re.split("\s", str)
print(x)
我們可以通過指定 maxsplit 參數來控制出現次數:
僅在首次出現時拆分字符串:
import re
str = "China is a great country"
x = re.split("\s", str, 1)
print(x)
sub()
函數把匹配替換為我們選擇的文本:
用數字 9 替換每個空白字符:
import re
str = "China is a great country"
x = re.sub("\s", "9", str)
print(x)
我們可以通過指定 count
參數來控制替換次數:
替換前兩次出現:
import re
str = "China is a great country"
x = re.sub("\s", "9", str, 2)
print(x)
Match 對象是包含有關搜索和結果信息的對象。
注意
:如果沒有匹配,則返回值 None,而不是 Match 對象。
執行會返回 Match 對象的搜索:
import re
str = "China is a great country"
x = re.search("a", str)
print(x) # 將打印一個對象
Match 對象提供了用於取回有關搜索及結果信息的屬性和方法:
span() # 返回的元組包含了匹配的開始和結束位置
.string # 返回傳入函數的字符串
group() # 返回匹配的字符串部分
打印首個匹配出現的位置(開始和結束位置)。
正則表達式查找以大寫 “C” 開頭的任何單詞:
import re
str = "China is a great country"
x = re.search(r"\bC\w+", str)
print(x.span())
打印傳入函數的字符串:
import re
str = "China is a great country"
x = re.search(r"\bC\w+", str)
print(x.string)
打印匹配的字符串部分。
正則表達式查找以大寫 “C” 開頭的任何單詞:
import re
str = "China is a great country"
x = re.search(r"\bC\w+", str)
print(x.group())
注意:
如果沒有匹配項,則返回值 None
,而不是 Match 對象。
正則表達式是程序語言用來查找文本中指定內容的神器。