程式師世界 >> 編程語言 >> 網頁編程 >> PHP編程 >> 關於PHP編程 >> php中正則表達式的子模式詳解

php中正則表達式的子模式詳解

編輯：關於PHP編程

文章介紹了關於php中正則表達式的子模式詳解，有需要知道php中正則表達式的子模式的朋友可參考一下。

函數
mixed preg_replace ( mixed pattern, mixed replacement, mixed subject [, int limit])

功能
在 subject 中搜索 pattern 模式的匹配項並替換為 replacement。如果指定了 limit，則僅替換 limit 個匹配，如果省略 limit 或者其值為 -1，則所有的匹配項都會被替換。
replacement可以包含\n形式或$n形式的逆向引用，n可以為0到99，\n表示匹配pattern第n個子模式的文本，\0表示匹配整個pattern的文本。

子模式
$pattern參數中被圓括號括起來的正則表達式，子模式的數目即從左到右圓括號的數目。（pattern即模式）

首先，我們先看一段PHP代碼：

代碼如下復制代碼
<?php
    $time = date ("Y-m-d H:i:s");
    $pattern = "/d{4}-d{2}-d{2} d{2}:d{2}:d{2}/i";
    if(preg_match($pattern,$time,$arr)){
    echo "<pre>";
    print_r($arr);
    echo "</pre>";
    }
?>

顯示結果：

Array
(
[0] => 2012-06-23 03:08:45
)有沒有注意到，顯示的結果只有一條數據，即符合匹配模式的時間格式，那如果只有一條記錄的話，為什麼還要用數組保存呢？直接使用字符串保存不是更好？

帶著這個問題，我們來看下正則表達式中的子模式。

在正則表達式中，可以使用“(”和“)”將模式中的子字符串括起來，以形成一個子模式。將子模式視為一個整體時，那麼它就相當於一個單個字符。

比如，我們將以上的代碼稍微修改下，改成如下：

代碼如下復制代碼
<?php
    $time = date ("Y-m-d H:i:s");
    $pattern = "/(d{4})-(d{2})-(d{2}) (d{2}):(d{2}):(d{2})/i";
    if(preg_match($pattern,$time,$arr)){
    echo "<pre>";
    print_r($arr);
    echo "</pre>";
    }
?>

注意：我只修改了$pattern，在匹配模式中，使用了括號()

執行結果：

Array
(
    [0] => 2012-06-23 03:19:23
    [1] => 2012
    [2] => 06
    [3] => 23
    [4] => 03
    [5] => 19
    [6] => 23
)
總結：我們可以使用小括號給整個匹配模式進行分組，默認情況下，每個分組會自動擁有一個組號，規則是，從左到右，以分組的左括號為標志，第一個出現的分組為組號1，第二個為組號2，以此類推。其中，分組0對應整個正則表達式。對整個正則匹配模式進行了分組以後，就可以進一步使用“向後引用”來重復搜索前面的某個分組匹配的文本。例如：1代表分組1匹配的文本，2代表分組2匹配的文本等等我們可以進一步修改下代碼，如下所示：

代碼如下復制代碼 <?php
    $time = date ("Y-m-d H:i:s");
    $pattern = "/(d{4})-(d{2})-(d{2}) (d{2}):(d{2}):(d{2})/i";
    $replacement = "$time格式為：$0<BR>替換後的格式為：\1年\2月\3日 \4時\5分\6秒";
    print preg_replace($pattern, $replacement, $time);
    if(preg_match($pattern,$time,$arr)){
        echo "<pre>";
        print_r($arr);
        echo "</pre>";
    }
?>

注意：

因為是在雙引號中，所以使用分組的時候應該使用兩個反斜槓，如:\1，而如果在單引號中，則使用一個反斜槓就可以了，如：1
\1用於捕獲分組一種的內容：2012，\6用於捕獲分組6中的內容　　　　　　　　　　
執行結果：

$time格式為：2012-06-23 03:30:31
替換後的格式為：2012年06月23日 03時30分31秒
Array
(
    [0] => 2012-06-23 03:30:31
    [1] => 2012
    [2] => 06
    [3] => 23
    [4] => 03
    [5] => 30
    [6] => 31
)

高級正則表達式

除了 POSIX BRE 和 ERE 之外，libutilitis 還支持與TCL 8.2兼容的高級正則表達式語
法（ARE）。通過為 stRegEx 參數增加前綴 "***:" 就可以開啟 ARE 模式，這個前綴覆
蓋 bExtended 選項。基本上講，ARE 是 ERE 的超集。它在 ERE 的基礎上進行了如下幾
項擴展：

1. 支持"懶惰匹配"（也叫"非貪婪匹配"或"最短匹配"）：在 '?', '*', '+' 或 '{m,n}'
     後追加 '?' 符號就可以啟用最短匹配，使得該正則表達式子句在滿足條件的前提下匹
     配盡可能少的字符（默認是匹配盡可能多的字符）。例如：將 "a.*b" 作用於 "abab"
     時，將匹配整個串（"abab"），若使用 "a.*?b"，則將只匹配前兩個字符（"ab"）。

2. 支持子表達式的向前引用匹配：在 stRegEx 中，可以使用 'n' 向前引用曾經定義的
子表達式。如："(a.*)1" 可匹配 "abcabc" 等。

3. 無名子表達式：使用 "(?:表達式)" 的方式創建一個無名表達式，無名表達式不返回
到一個 'n' 匹配。

4. 向前預判：要命中匹配，必須向前滿足指定條件。向前預判分為肯定預判和否定預判
     兩種。肯定預判的語法為："(?=表達式)"，例如："bai.*(?=yang)" 匹配 "bai yang"
     中的前四個字符（"bai "），但在匹配時保證字符串在 "bai.*" 後必須包含 "yang".
     否定判斷的語法為："(?!表達式)"，例如："bai.*(?!yang)" 匹配 "bai shan" 的前
     四個字符，但在匹配是保證字符串在 "bai.*" 後不出現 "yang"。

5. 支持模式切換前綴，在 "***:" 之後可以緊跟形如 "(?模式串)" 樣式的模式串，模式
串影響其後表達式的語義和行為。模式串可以是一下字符的組合：

     b - 切換至 POSIX BRE 模式，覆蓋 bExtended 選項。
     e - 切換至 POSIX ERE 模式，覆蓋 bExtended 選項。
     q - 切換至文本字面匹配模式，表達式中的字符都作為文本進行搜索，取消一切正則
         語義。此模式將正則匹配退化為一次簡單字符串查找。"***=" 前綴是其快捷表示
         方式，意即："***=" 等同於 "***:(?q)"。

c - 執行大小寫敏感的匹配，覆蓋 bNoCase 選項。
i - 執行忽略大小寫的匹配，覆蓋 bNoCase 選項。

     n - 開啟行敏感的匹配：'^' 和 '$' 匹配行首和行尾；'.' 和否定集（'[^...]'）不
         匹配換行符。此功能等同於 'pw' 模式串。覆蓋 bNewLine 選項。
     m - 等同於 'n'。
     p - '^' 和 '$' 只匹配整個字符串的首尾，不匹配行；'.' 和否定集不匹配換行符。
         覆蓋 bNewLine 選項。
     w - '^' 和 '$' 匹配行首和行尾；'.' 和否定集匹配換行符。覆蓋 bNewLine 選項。
     s - '^' 和 '$' 只匹配整個字符串的首尾，不匹配行；'.' 和否定集匹配換行符。覆
         蓋 bNewLine 選項。ARE 狀態下默認使用此模式。

     x - 開啟擴展模式：在擴展模式中，將忽略表達式中的空白符和注釋符 '#' 後的內容
         例如：
         @code@
   (?x)
   s+ ([[:graph:]]+)      # first number
   s+ ([[:graph:]]+)      # second number
         @code@
         等同於 "s+([[:graph:]]+)s+([[:graph:]]+)"。
     t - 關閉擴展模式，不忽略空白符和注釋符後的內容。ARE 狀態下默認使用此模式。

6. 與 BRE/ERE 模式不同的 Perl 風格字符類換碼序列：

perl類    等效POSIX表達式   描述
    ----------------------------------------------------------------------------
a        -                 響鈴字符
A        -                 不論當前模式如何，僅匹配整個串的最開頭
b        -                 退格字符 ('x08')
B        -                 轉義字符本身 ('\')
cX       -                 控制符-X (= X & 037)
d        [[:digit:]]       10 進制數字 ('0' - '9')
D        [^[:digit:]]      非數字
e        -                 退出符 ('x1B')
f        -                 換頁符 ('x0C')
m        [[:<:]]           單詞開始位置
M        [[:>:]]           單詞結束位置
n        -                 換行符 ('x0A')
r        -                 回車符 ('x0D')
s        [[:space:]]       空白符
S        [^[:space:]]      非空白符
t        -                 制表符 ('x09')
uX       -                 16 位 UNICODE 字符 (X∈[0000 .. FFFF])
UX       -                 32 位 UNICODE 字符 (X∈[00000000 .. FFFFFFFF])
v        -                 縱向制表符 ('x0B')
w        [[:alnum:]_]      組成單詞的字符
W        [^[:alnum:]_]     非單詞字符
xX       -                 8 位字符 (X∈[00 .. FF])
y        -                 單詞邊界（m 或 M）
Y        -                 非單詞邊界
Z        -                 不論當前模式如何，僅匹配整個串的最尾部
         -                 NULL，空字符
X        -                 子表達式向前引用 (X∈[1 .. 9])
XX       -                 子表達式向前引用或 8 進制表示的 8 字符
XXX      -                 子表達式向前引用或 8 進制表示的 8 字符