公司客戶在使用網站後台編輯添加修改內容時,經常是直接從word文檔裡復制內容到編輯器裡後就提交。結果是在內容顯示頁面上是五花八門的樣式,有時也需要部分純文本內容作為摘錄使用,這些都需要清除word格式。改變客戶的習慣要客戶先復制到記事本裡再粘貼到編輯器裡編輯是很難的,所以從我們自己改變起。從網上百度了若干清除word格式的正則,使用效果不甚理想,所以自己寫了清除word格式的asp函數,能滿足我們自己的使用需求。函數如下:
復制代碼 代碼如下:
function cleanWord(html)
dim regEx
set regEx=New RegExp
regEx.IgnoreCase=True
regEx.Global=True
regEx.Pattern="<[^>]*>" '清除所有<>之間的內容
html = regEx.replace(html,"" )
regEx.Pattern="{[^}]*}" '清除所有{}之間的內容
html = regEx.replace(html,"" )
regEx.Pattern="/[^/]*/" '清除所有/**/之間的注釋
html = regEx.replace(html,"" )
html =Replace(html,"table.MsoNormalTable","") '替換掉漏網的單詞
cleanWord= html
set regEx=nothing
end function