自己写的一段正则表达式,作用是删除 Page 里面Code 中的 HTML标签,这在做采集信息,消除其中的HTML很有用处,,欢迎大家收藏!
public string checkStr(string html)
 {
 System.Text.RegularExpressions.Regex regex1 = new System.Text.RegularExpressions.Regex(@"标记
 html = regex2.Replace(html, ""); //过滤href=javascript: (
) 属性
 html = regex3.Replace(html, " _disibledevent="); //过滤其它控件的on...事件
 html = regex4.Replace(html, ""); //过滤iframe
 html = regex5.Replace(html, ""); //过滤frameset
 html = regex6.Replace(html, ""); //过滤frameset
 html = regex7.Replace(html, ""); //过滤frameset
 html = regex8.Replace(html, ""); //过滤frameset
 html = regex9.Replace(html, "");
 html = html.Replace(" ", "");
 html = html.Replace("", "");
 html = html.Replace("", "");
 return html;
}
来源:cnblogs