程式師世界 >> 編程語言 >> .NET網頁編程 >> .NET實例教程 >> asp.net如何去掉HTML標記

asp.net如何去掉HTML標記

編輯：.NET實例教程

/**//// <summary>

/// 去除Html標記

/// </summary>

/// <param name="NoHTML">包括Html的源碼 </param>

/// <returns>已經去除後的文字</returns>

public static string NoHTML(string Htmlstring)

{

//刪除腳本

Htmlstring = Regex.Replace(Htmlstring,@"<script[^>]*?>.*?</script>","",RegexOptions.IgnoreCase);

//刪除Html

Htmlstring = Regex.Replace(Htmlstring,@"<(.[^>]*)>","",RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring,@"([\r\n])[\s]+","",RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring,@"-->","",RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring,@"<!--.*","",RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring,@"&(quot|#34);","\"",RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring,@"&(amp|#38);","&",RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring,@"&(lt|#60);","<",RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring,@"&(gt|#62);",">",RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring,@"&(nbsp|#160);"," ",RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring,@"&(IExcl|#161);","\xa1",RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring,@"&(cent|#162);","\xa2",RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring,@"&(pound|#163);","\xa3",RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring,@"&(copy|#169);","\xa9",RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&#(\d+);","",RegexOptions.IgnoreCase);

Htmlstring.Replace("<","");

Htmlstring.Replace(">","");

Htmlstring.Replace("\r\n","");

Htmlstring=HttpContext.Current.Server.HtmlEncode(Htmlstring).Trim();

return Htmlstring;

}

/**////提取Html代碼中文字的C#函數

/// <summary>

/// 去除Html標記

/// </summary>

/// <param name="strHtml">包括Html的源碼 </param>

/// <returns>已經去除後的文字</returns>

using System;

using System.Text.RegularExpressions;

public class StripHtmlTest

{

public static void Main()

{

string s=StripHTML("<HTML><HEAD><TITLE>中國石龍信息平台</TITLE></HEAD><BODY>faddfs龍信息平台</BODY></Html>");

Console.WriteLine(s);

}

public static string StripHTML(string strHtml)

{

string [] aryReg =

{

@"<script[^>]*?>.*?</script>",

@"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""''])(\\[""''tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>",

@"([\r\n])[\s]+",

@"&(quot|#34);",

@"&(amp|#38);",

@"&(lt|#60);",

@"&(gt|#62);",

  @"&(nbsp|#160);",

@"&(IExcl|#161);",

@"&(cent|#162);",

@"&(pound|#163);",

@"&(copy|#169);",

@"&#(\d+);",

@"-->",

@"<!--.*\n"

};

string [] aryRep =

{

"",

"\"",

"&",

"<",

">",

" ",

"\xa1",//chr(161),  

"\xa2",//chr(162),

"\xa3",//chr(163),

"\xa9",//chr(169),

"",

"\r\n",

};

string newReg =aryReg[0];

string strOutput=strHtml;

for(int i = 0;i<aryReg.Length;i++)

{

Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase);

strOutput = regex.Replace(strOutput,aryRep[i]);

}

strOutput.Replace("<","");

strOutput.Replace(">","");

strOutput.Replace("\r\n","");

return strOutput;

}

寫一個靜態方法

移除HTML標簽#region 移除Html標簽

/**//// <summary>

/// 移除Html標簽

/// </summary>

/// <param name="HTMLStr">HtmlStr</param>

public static string ParseTags(string HtmlStr)

{

return System.Text.RegularExpressions.Regex.Replace(HtmlStr, "<[^>]*>", "");

}

#endregion

取出文本中的圖片地址#region 取出文本中的圖片地址

/**//// <summary>

  /// 取出文本中的圖片地址

/// </summary>

/// <param name="HTMLStr">HtmlStr</param>

public static string GetImgUrl(string HtmlStr)

{

string str = string.Empty;

string sPattern = @"^<img\s+[^>]*>";

Regex r = new Regex(@"<img\s+[^>]*\s*src\s*=\s*(['']?)(?<url>\S+)''?[^>]*>",

RegexOptions.Compiled);

Match m = r.Match(HtmlStr.ToLower());

if (m.Success)

str = m.Result("${url}");

return str;

}

#endregion

.NET實例教程

一個找不到CLR錯誤的解決

本來好好的程序，按F6編譯突然報一大堆錯誤，主要錯誤為：錯

.net/c# 從0開始 (1)引用與注釋

和大多數非計算機專業的朋友一樣,剛出來的時候我甚至都不知道

Visual SourceSafe 2005 教程

以下是本人工作中的簡單應用、更多還在完善中、還望各位高手指

HyberLink綁定多個字段

其實很簡單<ASP:TemplateColumn&g

最經典的實現字符數控制的方案哦！(完善版）

當我們在ASP.Net開發時，經常會遇到一個頭疼的問題：字

ASP.NET 2.0中使用自定義provider

在ASP.NET 2.0中，新增加的membership

熱門圖文

DELPHI中利用API函數實現多態FORM(2) PHP html_entity_decode()將HTML實體轉成字符原型 Hdu1176免費餡餅構造C#語言的爬蟲蜘蛛程序（1）發一個剛編的暴力版/溫柔版中文截取函數 CodeIgniter怎麼更改view文件夾路徑？ HDU 4585 平衡樹Treap php之對抗Web掃描器的腳本技巧

欄目導航

C#ASP.NET 關於.NET .NET實例教程