程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
您现在的位置: 程式師世界 >> 編程語言 >  >> 更多編程語言 >> Python

22-python學習筆記之re(正則表達式)

編輯:Python

文章目錄

  • 前言
    • re 函數
    • 元字符
    • 特殊序列
    • 集合(Set)
  • 一、re模塊的使用
    • findall() 函數
    • search() 函數
    • split() 函數
    • sub() 函數
    • Match 對象
  • 總結


前言


以下都是自己的一些學習筆記,可能有寫的不對的地方,還望各位大佬體諒和加以指正。


re 或正則表達式是形成搜索模式的字符序列。
re 可用於檢查字符串是否包含指定的搜索模式。

re 模塊
Python 提供名為 re 的內置包,可用於處理正則表達式。

導入 re 模塊:

import re

Python 中的 re
導入 re 模塊後,就可以開始使用正則表達式了:

檢索字符串以查看它是否以 “China” 開頭並以 “country” 結尾:

import re
txt = "China is a great country"
x = re.search("^China.*country$", txt)

re 函數

re 模塊提供了一組函數,允許我們檢索字符串以進行匹配:

函數 描述
findall 返回包含所有匹配項的列表
search 如果字符串中的任意位置存在匹配,則返回 Match 對象
split 返回在每次匹配時拆分字符串的列表
sub 用字符串替換一個或多個匹配項

元字符

元字符是具有特殊含義的字符:

字符 描述 示例
[] 一組字符 "[a-m]"
\ 示意特殊序列(也可用於轉義特殊字符) "\d"
. 任何字符(換行符除外) "he..o"
^ 起始於 "^hello"
$ 結束於 "world$"
* 零次或多次出現 "aix*"
+ 一次或多次出現 "aix+"
{
} 確切地指定的出現次數 "al{2}"
| 兩者任一 "falls|stays"
() 捕獲和分組

特殊序列

特殊序列指的是 \ 後跟下表中的某個字符,擁有特殊含義:

字符 描述 示例
\A 如果指定的字符位於字符串的開頭,則返回匹配項 "\AThe"
\b 返回指定字符位於單詞的開頭或末尾的匹配項 r"\bain"
r"ain\b"
\B 返回指定字符存在的匹配項,但不在單詞的開頭(或結尾處) r"\Bain"
r"ain\B"
\d 返回字符串包含數字的匹配項(數字 0-9) "\d"
\D 返回字符串不包含數字的匹配項 "\D"
\s 返回字符串包含空白字符的匹配項 "\s"
\S 返回字符串不包含空白字符的匹配項 "\S"
\w 返回一個匹配項,其中字符串包含任何單詞字符
(從 a 到 Z 的字符,從 0 到 9 的數字和下劃線 _ 字符) "\w"
\W 返回一個匹配項,其中字符串不包含任何單詞字符 "\W"
\Z 如果指定的字符位於字符串的末尾,則返回匹配項 "Spain\Z"

集合(Set)

集合(Set)是一對方括號 [] 內的一組字符,具有特殊含義:

集合 描述
[arn] 返回一個匹配項,其中存在指定字符(a,r 或 n)之一
[a-n] 返回字母順序 a 和 n 之間的任意小寫字符匹配項
[^arn] 返回除 a、r 和 n 之外的任意字符的匹配項
[0123] 返回存在任何指定數字(0、1、2 或 3)的匹配項
[0-9] 返回 0 與 9 之間任意數字的匹配
[0-5][0-9] 返回介於 0 到 9 之間的任何數字的匹配項
[a-zA-Z] 返回字母順序 a 和 z 之間的任何字符的匹配,小寫或大寫
[+] 在集合中,+、*、.、|、()、$、{
} 沒有特殊含義,因此 [+] 表示:返回字符串中任何 + 字符的匹配項

一、re模塊的使用

findall() 函數

findall() 函數返回包含所有匹配項的列表。

打印所有匹配的列表:

import re
str = "China is a great country"
x = re.findall("a", str)
print(x)

這個列表以被找到的順序包含匹配項。
如果未找到匹配項,則返回空列表:

如果未找到匹配,則返回空列表:

import re
str = "China is a great country"
x = re.findall("USA", str)
print(x)

search() 函數

search() 函數搜索字符串中的匹配項,如果存在匹配則返回 Match 對象。

如果有多個匹配,則僅返回首個匹配項:

在字符串中搜索第一個空白字符:

import re
str = "China is a great country"
x = re.search("\s", str)
print("The first white-space character is located in position:", x.start())

如果未找到匹配,則返回值 None:
進行不返回匹配的檢索:

import re
str = "China is a great country"
x = re.search("USA", str)
print(x)

split() 函數

split() 函數返回一個列表,其中字符串在每次匹配時被拆分:

在每個空白字符處進行拆分:

import re
str = "China is a great country"
x = re.split("\s", str)
print(x)

我們可以通過指定 maxsplit 參數來控制出現次數:

僅在首次出現時拆分字符串:

import re
str = "China is a great country"
x = re.split("\s", str, 1)
print(x)

sub() 函數

sub() 函數把匹配替換為我們選擇的文本:

用數字 9 替換每個空白字符:

import re
str = "China is a great country"
x = re.sub("\s", "9", str)
print(x)

我們可以通過指定 count 參數來控制替換次數:

替換前兩次出現:

import re
str = "China is a great country"
x = re.sub("\s", "9", str, 2)
print(x)

Match 對象

Match 對象是包含有關搜索和結果信息的對象。

注意:如果沒有匹配,則返回值 None,而不是 Match 對象。

執行會返回 Match 對象的搜索:

import re
str = "China is a great country"
x = re.search("a", str)
print(x) # 將打印一個對象

Match 對象提供了用於取回有關搜索及結果信息的屬性和方法:

span() # 返回的元組包含了匹配的開始和結束位置
.string # 返回傳入函數的字符串
group() # 返回匹配的字符串部分

打印首個匹配出現的位置(開始和結束位置)。
正則表達式查找以大寫 “C” 開頭的任何單詞:

import re
str = "China is a great country"
x = re.search(r"\bC\w+", str)
print(x.span())
打印傳入函數的字符串:
import re
str = "China is a great country"
x = re.search(r"\bC\w+", str)
print(x.string)

打印匹配的字符串部分。

正則表達式查找以大寫 “C” 開頭的任何單詞:

import re
str = "China is a great country"
x = re.search(r"\bC\w+", str)
print(x.group())

注意:如果沒有匹配項,則返回值 None,而不是 Match 對象。


總結

正則表達式是程序語言用來查找文本中指定內容的神器。


  1. 上一篇文章:
  2. 下一篇文章:
Copyright © 程式師世界 All Rights Reserved