Python正則表達式:
在Python中實現正則的方式是通過re(regular expression的縮寫)模塊來實現的,你可以調用re模塊的各種方法來實現不同的功能,下面我們就來說下,在Python中通過re模塊可以調用那些方法,以及這些方法的作用都是什麼;還有就是正則的實例以及各種特殊符號的含義:
1、re.sub和replace:
sub的全拼是substitute,也就是替換的意思;既然知道是替換了,那就很容易用到實例中了,其實replace也是替換的意思,只不過它們的用法不太相同,下面用一個例子來詳細說明下它們的異同之處:
>>> import re >>> str1 = 'Hello 111 is 222' >>> str2 = str1.replace('111','222') >>> print(str2) Hello 222 is 222 >>>
這是一個簡單的例子,如果是下面這種情形,把所有的數字都換成222,那麼用replace實現起來就比較麻煩,而用re模塊的sub方法實現起來就比較的簡單:(如果是更復雜的操作,使用replace可能就無法實現了。)
>>> import re >>> str1 = 'Hello 123 is 456' >>> str2 = re.sub('\d+','222',str1) >>> print(str2) Hello 222 is 222 >>>
2、re.search()和re.match():
match: 只從字符串的開始與正則表達式匹配,匹配成功返回matchobject,否則返回none.
search:將字符串的所有字串嘗試與正則表達式匹配,如果所有的字串都沒有匹配成功則返回none,否則返回matchobject.
下面這個例子說明了match和search的異同點,也說明了,在實際的應用中,search用的還是比較多的:
import re str1 = 'helloword,i am alex' if not re.match('word',str1): print('cannot match') print(re.match('hello',str1).group()) print(re.search('word',str1).group()) #顯示結果 cannot match hello wordView Code
3、re.split:
在Python中,如果想對一個字符串進行分割的話,只需要調用str的split方法就可以實現,但是這個split只能根據某個字符來進行分割的操作,如果要同時指定多個字符來進行分割的話,它就無法實現了。
好在re模塊也提供了split這個方法來對字符串進行分割,而且這個方法更加強大,可以同時根據多個字符進行分割的操作,下面來看分別看一下str的split和re的split有什麼不同的地方:
str1 = 'helloword,i;am\nalex' str2 = str1.split(',') print(str2) import re str3 = re.split('[,|;|\n]',str1) print(str3) #下面是不同的輸出結果 ['helloword', 'i;am\nalex'] ['helloword', 'i', 'am', 'alex']
從中我們可以看出,上面說的真實性。
4、findall:
findall方法基本上都是和compile方法同時出現的,它們的用法是:
先由compile將一個正則表達式的字符串形式轉換成pattern實例,然後再使用patte實例調用findall方法生成match對象來獲取結果,在將它們結合的實例之前,我們先來看下正則表達式中預設的特殊字符含義:
\d 匹配任何十進制數;它相當於類 [0-9]。
\D 匹配任何非數字字符;它相當於類 [^0-9]。
\s 匹配任何空白字符;它相當於類 [ "t"n"r"f"v]。
\S 匹配任何非空白字符;它相當於類 [^ "t"n"r"f"v]。
\w 匹配任何字母數字字符;它相當於類 [a-zA-Z0-9_]。
\W 匹配任何非字母數字字符;它相當於類 [^a-zA-Z0-9_]。
看完這幾個特殊字符的含義,我們再舉一個例子來說明一下上面的論點:
import re str1 = 'asdf12dvdve4gb4' pattern1 = re.compile('\d') pattern2 = re.compile('[0-9]') mch1 = pattern1.findall(str1) mch2 = pattern2.findall(str1) print('mch1:\t%s'% mch1) print('mch2:\t%s'% mch2) #輸出結果 mch1: ['1', '2', '4', '4'] mch2: ['1', '2', '4', '4']
上面的兩個實例都可以很好的闡述上面的論點,而且也表明了,特殊字符\d確實跟[0-9]是一樣的,通過輸出結果就可以看出,那麼如果你不想把每個數字都拆分為一個元素放在列表中,而是想把12整體的輸出出來,那麼你可以這樣做:(就是在\d的後面加上個+號來實現的,這裡的+號表示的是把一個或者多個相連的十進制數字整體輸出)
import re str1 = 'asdf12dvdve4gb4' pattern1 = re.compile('\d+') pattern2 = re.compile('[0-9]') mch1 = pattern1.findall(str1) mch2 = pattern2.findall(str1) print('mch1:\t%s'% mch1) print('mch2:\t%s'% mch2) #輸出結果 mch1: ['12', '4', '4'] mch2: ['1', '2', '4', '4']View Code
我們再舉一個小例子,這個例子是結合特殊字符和re的sub功能實現一下把字符串中所有的空格都給去掉:
import re str1 = 'asd \tf12d vdve4gb4' new_str = re.sub('\s*','',str1) print(new_str) #輸出結果 asdf12dvdve4gb4
5、元字符:
我們通常所說的二元字符有;2元字符:. ^ $ * + ? { } [ ] | ( ) \
我們首先考察的元字符是"[" 和 "]"。它們常用來指定一個字符類別,所謂字符類別就是你想匹配的一個字符集。字符可以單個列出,也可以用“-”號分隔的兩個給定
字符來表示一個字符區間。例如,[abc] 將匹配"a", "b", 或 "c"中的任意一個字符;也可以用區間[a-c]來表示同一字符集,和前者效果一致。如果你只想匹配小寫字母,那麼 RE 應寫成 [a-z].元字符在類別裡並不起作用。例如,[akm$]將匹配字符"a", "k", "m", 或 "$" 中的任意一個;"$"通常用作元字符,但在字符類別裡,其特性被除去,恢復成普通字
符。
[]:元字符[]表示字符類,在一個字符類中,只有字符^、-、]和\有特殊含義。字符\仍然表示轉義,字符-可以定義字符范圍,字符^放在前面,表示非.(這個在上面的特殊字符示例中也有提現),
+ 匹配+號前內容1次至無限次
? 匹配?號前內容0次到1次
{m} 匹配前面的內容m次
{m,n} 匹配前面的內容m到n次
下面通過一個小例子,來闡述一下上面的字符在元字符[]中的使用:(在下面的這個例子中,要注意的有兩點:一是在\d+後面的?號的含義,二是在匹配的前面加上了一個字符r,其實在這個示例中,加與不加都可以顯示一樣的結果)
>>> import re >>> print(re.findall(r"a(\d+?)","a123b")) ['1'] >>> print(re.findall(r"a(\d+)","a123b")) ['123'] >>>