當我們在做字符串處理時,如果字符串處理函數不能實現我們想要的時,我們就借助正則來幫助我們實現了。
一般使用正則的情況有:匹配、查找、分割、查找並替換,下面我們就將這幾種情況分別用PHP和Python語言來實現,並做一下對比。 PHP正則采用:PCRE風格。<?php $strs = '我愛P你y你t知h嗎o?n哈哈fe哈'; preg_match('/^.*?(\w+).*?$/i',$strs,$m);var_dump($m[1]);
#輸出:string 'P' (length=1)
preg_match('/(\w+)/',$strs,$m);
#2 搜索查找Search Python:patt = re.compile(r'(\w+)',re.I) print patt.search(strs).group(1) #輸出 P
說明search方法一樣,若查找到了就立即返回,否則一直搜索到字符串末尾,在PHP中可以使用preg_match(_all) 來實現。 PHP: 同上 #3 匹配分割 Python:patt = re.compile(r'\w+',re.I) for i in patt.split(strs): #注意這裡要使用unicode對象輸出 print unicode(i,'utf-8') #以上輸出 ''' 我愛 你 你 知 嗎 ? 哈哈 哈'''
在PHP中可以使用preg_split()來實現 PHP:<?php $strs = '我愛P你y你t知h嗎o?n哈哈fe哈'; $m = preg_split('/\w+/i',$strs); var_dump($m);
/**輸出:
array 0 => string '我愛' (length=6) 1 => string '你' (length=3) 2 => string '你' (length=3) 3 => string '知' (length=3) 4 => string '嗎' (length=3) 5 => string '?' (length=3) 6 => string '哈哈' (length=6) 7 => string '哈' (length=3)**/
print patt.findall(strs) #輸出 ['P', 'y', 't', 'h', 'o', 'n', 'fe']
在PHP中可使用preg_match_all() 來實現 PHP:<?php $strs = '我愛P你y你t知h嗎o?n哈哈fe哈'; preg_match_all('/(\w+)/i',$strs,$m); var_dump($m);
/**
array 0 => array 0 => string 'P' (length=1) 1 => string 'y' (length=1) 2 => string 't' (length=1) 3 => string 'h' (length=1) 4 => string 'o' (length=1) 5 => string 'n' (length=1) 6 => string 'fe' (length=2) 1 => array 0 => string 'P' (length=1) 1 => string 'y' (length=1) 2 => string 't' (length=1) 3 => string 'h' (length=1) 4 => string 'o' (length=1) 5 => string 'n' (length=1) 6 => string 'fe' (length=2) **/
#5 查找替換 實際上finditer()方法在python中不是查找替換,它僅是返回一個順序訪問每一個匹配結果(Match對象)的迭代器 python:
for i in patt.finditer(strs): print i.group() #以上輸出 ''' P y t h o n fe '''
這和PHP中的preg_filter()有所不同,preg_filter()與preg_replace()都是執行一個正則表達式的搜索和替換。在python中正則方法中,用於查找替換的是:sub()與subn()。 需要注意的是sub()返回的一個新字符串,不是作用在原對象上。 subn()返回的是一個以“新字符串和替換的次數”組成的元組,也沒有作用到原對象上。 #替換三次 print patt.sub('99',strs,3) #輸出 '我愛99你99你99知h嗎o?n哈哈fe哈' print patt.subn('99',strs) #輸出:是一個元組('我愛99你99你99知99嗎99?99哈哈99哈',7) 替換與引用#這裡批量替換文章中的圖片的路徑(old_c 是文章的內容)
img_dir = 'test'
img_patt = re.compile('src=".*?/(\w+\.\w+)"')
new_c = img_patt.sub(r'src="./%s/\1"'%img_dir,old_c) PHP:
#這裡批量替換文章中的圖片的路徑(old_c 是文章的內容)
img_dir = 'test' img_patt = re.compile('src=".*?/(\w+\.\w+)"') new_c =img_patt.sub(r'src="./%s/\1"'%img_dir,old_c) #輸出:
string '我愛999你999你999知999嗎999?999哈哈999哈' (length=51)另注 1 對於正則的基礎知識可以GOOGLE一下,Python正則的基礎知識也可以GOOGLE一下。 2 對於更多關於PHP PCRE風格的正則基礎,可以參看:http://cn2.php.net/manual/zh/regexp.introduction.php 3 另外有一點需要注意的是:對於處理字符串能用字符串函數處理的就用函數處理,千萬別用正則。