活動地址:CSDN21天學習挑戰賽
學習的最大理由是想擺脫平庸,早一天就多一份人生的精彩;
雖然永遠無法預料明天是晴還是雨,
也無法預知你在乎的人是否還在身旁,
以及你一直以來的堅持究竟能否換來什麼。
但你能決定的是,
今天有沒有備好雨傘,
有沒有好好愛自己,
以及是否為自己追求的理想而拼盡全力。
正則表達式是一個特殊的字符序列,它能幫助你方便的檢查一個字符串是否與某種模式匹配。 Python 自1.5版本起增加了re 模塊,它提供 Perl 風格的正則表達式模式。 re 模塊使 Python 語言擁有全部的正則表達式功能。正則表達式是一個強大的字符處理工具,其本質是一個字符序列,可以方便檢查一個字符串是否與我們定義的字符序列的某種模式相匹配
在python中,正則表達式可以通過import re
模塊使用,本文將全面介紹正則表達式的使用方法
寫在正則表達式裡面的普通字符都是表示:直接匹配他們;
但是有一些特殊字符,術語metacharacters(元字符)。它們出現在正則表達式字符串中,不上表示直接匹配他們,而是表達一些特別含義
這些特殊的元字符包括下面這些:
. * + ? \ [ ] ^ $ { } | ( )
我們來分別介紹一下他們的含義:
表示要匹配除了換行符之外的任何單個字符
蘋果是綠色的
橙子是橙色的
香蕉是黃色的
烏鴉是黑色的
也就是要找到所有以色
結尾,並且包括前面的一個字符的詞語。也就可以這樣寫正則表達式.色
其中點代表了任意一個字符,注意是任一個字符。
.色
合起來就是表示要找到任意一個字符後面是色這個字,合起來兩個字的字符串
范例:
# 導入re模塊
import re
#輸入文本內容
content='''蘋果是綠色的 橙子是橙色的 香蕉是黃色的 烏鴉是黑色的'''
p=re.compile(r'.色')#r表示不要進行python語法中對字符串的轉譯
for one in p.findall(content):
print(one)
*
-表示匹配前面的子表達式任意次,包括0次比如,你要從下面的文本中,選擇每行逗號後面的字符串內容,包括逗號本身。注意,這裡的逗號是文本的逗號。
蘋果,是綠色的
橙子,是橙色的
香蕉,是黃色的
烏鴉,是黑色的
猴子,
就可以這樣寫正則表達式,.*
。
范例:
# 導入re模塊
import re
#輸入文本內容
content='''蘋果,是綠色的 橙子,是橙色的 香蕉,是黃色的 烏鴉,是黑色的 猴子,'''
p=re.compile(r',.*')#r表示不要進行python語法中對字符串的轉譯
for one in p.findall(content):
print(one)
這樣就包括逗號在內的後面的字符串都匹配進來了
+
表示匹配前面的子表達式一次或多次,不包括0次比如,還是上面的例子,你要從文本中,選擇每行後面的字符串,包括逗號本身。但是添加一個條件,如果逗號後面沒有內容,就不要選擇了。
下面的文本中最後一行逗號後面沒有內容,就不要選擇了
蘋果,是綠色的
橙子,是橙色的
香蕉,是黃色的
烏鴉,是黑色的
猴子,
就可以這樣寫正則表達式,.+
范例:
# 導入re模塊
import re
#輸入文本內容
content='''蘋果,是綠色的 橙子,是橙色的 香蕉,是黃色的 烏鴉,是黑色的 猴子,'''
p=re.compile(r',.+')#r表示不要進行python語法中對字符串的轉譯
for one in p.findall(content):
print(one)
這樣最後一行逗號後面沒有內容,所以最後一行也就不會匹配
花括號表示前面的字符匹配指定的次數
比如,下面文本
紅彤彤,綠油油,黑乎乎,綠油油油油
表達式油{3,4}
就表示匹配連續的油字至少3次,至多4次
范例:
# 導入re模塊
import re
#輸入文本內容
content='''紅彤彤,綠油油,黑乎乎,綠油油油油'''
p=re.compile(r'綠油{3,4}')#r表示不要進行python語法中對字符串的轉譯
for one in p.findall(content):
print(one)
這裡就匹配綠後面匹配油至少3次,至多4次的字符串
我們要把下面的字符串中的所有html標簽提取出來
得到這樣一個列表
很容易想到使用正則表達式<.*>
寫出如下代碼
# 導入re模塊
import re
#輸入文本內容
source='<html><head><title>Title</title>'
p=re.compile(r'<.*>')#r表示不要進行python語法中對字符串的轉譯
print(p.findall(source))
但是運行結果,卻是把整個字符串全部匹配上了
怎麼回事?原來在正則表達式中,’*’,’+’,’?'都是貪婪的,使用他們時,會盡可能多的匹配內容,所以,<.*>
中的星號(表示任意次數的重復),一直匹配到了字符串最後</tlitle>
裡面同樣符合匹配模式。
為了解決整個問題,就需要使用非貪婪模式,也就是在星號後面加上?
,變成這樣<.*?>
代碼改為
# 導入re模塊
import re
#輸入文本內容
source='<html><head><title>Title</title>'
p=re.compile(r'<.*?>')#r表示不要進行python語法中對字符串的轉譯
print(p.findall(source))
這樣就單獨去匹配出來了每一個標簽
方括號表示要匹配某幾種類型字符。
比如[abc]
可以匹配a,b,c裡面的任意一個字符。等價於[a-c]
a-c
中間的-
表示一個范圍從a到c
如果你想匹配所有小寫字母,可以使用[a-z]
一些元字符在方括號內便失去了魔法,變得和普通字符一樣了。
比如[akm.]
匹配a k m .
裡面的任意一個字符
在這裡.
在括號不再表示匹配任意字符了,而就是表示匹配.
這個字符
例如:
^
表示匹配文本的起始位置
正則表達式可以設定單行模式
和多行模式
如果是單行模式
,表示匹配整個文本
的開頭位置。
如果是多行模式
,表示匹配文本每行
的開頭位置。
比如,下面的文本中,每行最前面的數字表示水果的編號,最後的數字表示價格
001-蘋果價格-60,
002-橙子價格-70,
003-香蕉價格-80,
范例:
# 導入re模塊
import re
#輸入文本內容
source='''001-蘋果-60 002-橙子-70 003-香蕉-80'''
p=re.compile(r'^\d+')#r表示不要進行python語法中對字符串的轉譯
for one in p.findall(source):
print(one)
運行結果如下
如果去掉complie的第二個參數re.M,運行結果如下
就只進行一行匹配,
因為在單行模式下,^
只會匹配整個文本的開頭位置
$
表示匹配文本的結束位置
如果是單行模式
,表示匹配整個文本
的結束位置。
如果是多行模式
,表示匹配文本每行
的結束位置。
比如,下面的文本中,每行最前面的數字表示水果的編號,最後的數字表示價格
001-蘋果價格-60,
002-橙子價格-70,
003-香蕉價格-80,
如果我們要提取所有的水果編號,用這樣的正則表達式\d+$
范例:
# 導入re模塊
import re
#輸入文本內容
source='''001-蘋果-60 002-橙子-70 003-香蕉-80'''
p=re.compile(r'^\d+$',re.M)#re.M進行多行匹配
for one in p.findall(source):
print(one)
成功匹配到每行最後的價格
主括號稱之為正則表達式的組選擇。是從正則表達式匹配的內容裡面扣取出其中的某些部分
前面,我們有個例子,從下面的文本中,選擇每行逗號前面的字符串,也包括逗號本身
。
蘋果,蘋果是綠色的
橙子,橙子是橙色的
香蕉,香蕉是黃色的
就可以這樣寫正則表達式個^.*,
。
但是,如果我們要求不要包括逗號呢?
當然不能直接這樣寫^.*
因為最後的逗號是特征所在,如果去掉它,就沒法找逗號前面的了。
但是把逗號放在正則表達式中,又會包含逗號。
解決問題的方法就是使用組選擇符:括號。
我們這樣寫^(.*),
我們把要從整個表達式中提取的部分放在括號中,這樣水果的名字就被單獨的放在組group中了。
對應的Python代碼如下
# 導入re模塊
import re
#輸入文本內容
source='''蘋果,蘋果是綠色的 橙子,橙子是橙色的 香蕉,香蕉是黃色的'''
p=re.compile(r'^(.*),',re.M)#re.M進行多行匹配
for one in p.findall(source):
print(one)
這樣我們就可以把,
前的字符取出來了
反斜槓\
在正則表達式中有多種用途
比如,我們要在下面的文本中搜索所有點前面的字符串,也包括點本身
蘋果.是綠色的
橙子.是橙色的
香蕉.是黃色的
如果,我們這樣寫正則表達式.*.
,聰明的你肯定發現不對勁。
因為點是一個元字符,直接出現在正則表達式中,表示匹配任意的單個字符,不能表示.
這個字符的本身的意思了
怎麼辦呢?
如果我們要搜索的內容本身就包含元字符,就可以使用反斜槓進行轉義
這裡我們就應用這樣的表達式.*\.
范例:
# 導入re模塊
import re
#輸入文本內容
source='''蘋果.是綠色的 橙子.是橙色的 香蕉.是黃色的'''
p=re.compile(r'.*\.')#r表示不要進行python語法中對字符串的轉譯
for one in p.findall(source):
print(one)
成功匹配!
利用反斜槓還可以匹配某種字符類型
反斜槓後面接一些字符,表示匹配某種類型的一個字符
\d
匹配0~9之間的任意一個數字字符,等價於表達式[0-9]\D
匹配任意一個不上0-9之間的數字字符,等價於表達是[^0-9]\s
匹配任意一個空白字符,包括空格、tab、換行符等、等價於[\t\n\r\f\v]\S
匹配任意一個非空白字符,等價於[^\t\tn\r\f\v]\w
匹配任意一個文字字符,包括大小寫、數字、下劃線、等於[a-zA-A0-9]\W
匹配任意一個非文字字符,等價於表達式[^a-zA-Z0-9]反斜槓也可以用在方括號裡面,比如[\s,.]
:表示匹配任何空白字符,或者逗號,或者點
正則表達式可以包含一些可選標志修飾符來控制匹配的模式。修飾符被指定為一個可選的標志。多個標志可以通過按位OR(I)它們來指定。如re.l | re.M被設置成Ⅰ和M標志:
.
匹配包括換行在內的所有字符re.U根據Unicode字符集解析字符。這個標志影響lw,W,Nb,\B.re.X該標志通過給予你更靈活的格式以便你將正則表達式寫得更易於理解。字符串對象的split()
方法只適應於非常簡單的字符串分割情形。當你需要更加靈活的切割字符串的時候,就不好用了。
比如,我們需要從下面字符串中提取武將的名字。
我們發現這些名字之間,有的是分號隔開,有的是逗號隔開,有的是空格隔開,而且分割符號周圍還有不定數量的空格
names =“關羽;張飛,趙雲,馬超,黃忠 李逵”
這時,最好使用正則表達式裡面的split
方法:
范例:
# 導入re模塊
import re
#輸入文本內容
names ="關羽;張飛,趙雲,馬超,黃忠 李逵"
namelist=re.split(r'[;,\s]\s*',names)
print(namelist)
正則表達式[;,ls]\s*
指定了,分割符為分號、逗號、空格裡面的任意一種均可,並且該符號周圍可以有不定數量的空格。