1、匹配a標簽及其url:
Regex regA = new Regex(@"<a[\s]+[^<>]*href=(?:""|')([^<>""']+)(?:""|')[^<>]*>([^<>]+)</a>", RegexOptions.IgnoreCase);
說明:在上面的正則表達式中,
用來匹配href屬性前面和後面的各種屬性:
[^<>]*
用來匹配href屬性引號中間的url:
([^<>""']+)
用來匹配a標簽之間的內容:
([^<>]+)
2、匹配img標簽及其url:
Regex regImg = new Regex(@"<img[\s]+[^<>]*src=(?:""|')([^<>""']+(?:\.jpg|\.jpeg|\.png|\.gif))(?:""|')[^<>]*>", RegexOptions.IgnoreCase);
3、匹配標簽及標簽中間的內容:
reg = new Regex(@"<dl class=""ksDl"">(?:(?!</dl>)[\s\S])*</dl>", RegexOptions.IgnoreCase);
說明:當html字符串如下時,可以匹配到兩處,
<dl class="ksDl"><div>測試</div></dl> <dl class="ksDl"><div>測試</div></dl>
如果正則表達式這樣寫:
reg = new Regex(@"<dl class=""ksDl"">[\s\S]*</dl>", RegexOptions.IgnoreCase);
則只能匹配一處。請注意下面這部分的作用,它在匹配中間內容的時候排除了</dl>
(?:(?!</dl>)[\s\S])*