`
chencang
  • 浏览: 419336 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

去除html标签的正则表达式

阅读更多

在建立html文件的索引的时候,我们需要去除文件中的这些html标签,比如<a...></a>,<script></script>,<style></style>等等,一般而言,我们使用正则表达式来匹配是最方便快速的。

下面为匹配这些标签的正则表达式:

<\s*script.*?>[^<>]*?<\s*/\s*script\s*>

或者

<\s*script.*?>[\s\S]*?<\s*/\s*script\s*>


类似

<\s*style[^>]*>[^<>]*?<\s*/\s*style\s*>
<!--[\s\S]*?-->

 

如果要不区分大小写,需要在后面添加相应的模式,如Java中为

Pattern p = Pattern.compile(regx, Pattern.CASE_INSENSITIVE);

 

但下面这种情况下,似乎无法通过正则表达式来去除html标签,如:

写道
<IMG onmousewheel="return bbimg(this)" style="CURSOR: pointer" onclick=javascript:window.open(this.src); alt="同学 16P" src="http://xxx.com/xxx.jpg" onload="javascript:if(this.width style=" border=0 ? cursor: pointer?>

<IMG onmousewheel="return imgzoom(this);" onmouseover="if(this.width>screen.width*0.7) {this.resized=true; this.width=screen.width*0.7; this.style.cursor='hand';}" onclick="window.open('http://xxx.com/xxx.jpg');" alt="按这里可在新视窗开启 或 按 CTRL+Mouse卷动 可进行放大/缩细"src="http://xxx-teen-tv.com/ntc-53/02.jpg" onload="if(this.width > screen.width*0.7) {this.resized=true;this.width=screen.width*0.7}" border=0>
 

标签内部写有js代码,同时含有大于号或者小于号。

这种情况的页面似乎只有通过对html进行解析parser,正则表达式行不通? 希望有高人看到能路过解答一下,谢谢

分享到:
评论

相关推荐

    正则表达式清除html标签

    .net开发,用正则表达式清除字符串html标签

    winform 去除html标签的正则表达式

    利用正则表达式去除html标签,去除样式,只选择内容,

    利用正则表达式批处理含链接内容文档

    由于项目需求,自己需要将带有链接的标签去除,例如 &lt;a href="/zhaoyao/17-66.html"&gt;头晕,转换后的文档为头晕。...读取每一个筛选到的文件,利用正则表达式去除超链接符号。 3.将每一个处理过的文件重写回源文件。

    经典JavaScript正则表达式实战

    正则表达式实战... 1 匹配结尾的数字... 2 统一空格个数... 3 判断字符串是不是由数字组成... 3 电话号码正则... 3 手机号码正则表达式... 4 使用正则表达式实现删除字符串中的空格:... 4 限制文本框只能输入数字和...

    正则表达式经典实例

    中文名: 正则表达式经典实例 原名: Regular Expression Cookbook 作者: (美)高瓦特斯(Goyvaerts,J.) (美)利维森(Levithan,S.)译者: 郭耀 资源格式: PDF 版本: 扫描版 出版社: 人民邮电出版社书号: ...

    正则表达式经典实例.pdf

    中文名: 正则表达式经典实例 原名: Regular Expression Cookbook 作者: (美)高瓦特斯(Goyvaerts,J.) (美)利维森(Levithan,S.)译者: 郭耀 资源格式: PDF 版本: 扫描版 出版社: 人民邮电出版社书号: 9787115228321发行...

    Python使用正则表达式去除(过滤)HTML标签提取文字功能

    下面给大家介绍下Python使用正则表达式去除(过滤)HTML标签提取文字,具体代码如下所示: # -*- coding: utf-8-*- import re ##过滤HTML中的标签 #将HTML中标签等信息去掉 #@param htmlstr HTML字符串. def filter_...

    java 正则表达式

    匹配html标签的正则表达式:&lt;(.*)&gt;(.*)(.*)&gt;|&lt;(.*)\/&gt; 匹配首尾空格的正则表达式:(^\s*)|(\s*$) 应用:javascript中没有像vbscript那样的trim函数,我们就可以利用这个表达式来实现,如下: String.prototype.trim ...

    使用正则表达式去除所有html标签只保留文字

    主要介绍了使用正则表达式去除所有html标签只保留文字效果,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友参考下吧

    ASP正则表达式清除HTML指定标签的方法

    主要介绍了ASP正则表达式清除HTML指定标签的方法,告诉大家如何精准的过滤掉某些特定的属性标签和参数,感兴趣的小伙伴们可以参考一下

    Java使用正则表达式删除所有HTML标签的方法示例

    主要介绍了Java使用正则表达式删除所有HTML标签的方法,结合完整实例形式分析了java针对HTML页面元素script标签、style标签、html标签等的正则匹配相关操作技巧,需要的朋友可以参考下

    C#过滤HTML标签源码,使用的正则表达式

    只有一个方法 传入要过滤的字符串 即可完成HTML标签的过滤操作 返回不带HTML标签的字符串 非常方便,且实用

    PHP正则表达式清除html标签 str_replace

    preg_replace 可以清除html标签 可以配合str_replace 一起使用

    C#使用正则表达式过滤html标签

    最近在开发一个项目,其中有需求要求我们把一段html转换为一般文本返回,使用正则表达式是明智的选择,下面小编给介绍下C#使用正则表达式过滤html标签,需要的朋友参考下

    asp常用的正则表达式实现字符串的替换

    去除html标签正则&lt;\/*[^&lt;&gt;]*&gt;Function LoseHtml(ContentStr) Dim ClsTempLoseStr,RegEx ClsTempLoseStr = Cstr(ContentStr) Set RegEx = New RegExp RegEx.Pattern = “&lt;\/*[^&lt;&gt;]*&gt;” RegEx....

    php和editplus正则表达式去除空白行

    去除字符串内部的空行: 复制代码 代码如下: $str = preg_replace(“/(\s... 您可能感兴趣的文章:php正则删除img标签的方法示例php正则删除html代码中class样式属性的方法PHP正则删除html代码中a标签并保留标签内容的方

    js获取富文本中的第一张图片(正则表达式)

    主要介绍了js获取富文本中的第一张图片url正则表达式及去除字符串里面的html标签的正则公式,需要的朋友可以参考下

    Python正则获取、过滤或者替换HTML标签的方法

    本文实例介绍了Python通过正则表达式获取,去除(过滤)或者替换HTML标签的几种方法,具体内容如下 python正则表达式关键内容: python正则表达式转义符: . 匹配除换行符以外的任意字符 \w 匹配字母或数字或下划线或...

    SQl去掉HTML标签函数

    SQl去掉HTML标签函数 彻底防止SQL注入

Global site tag (gtag.js) - Google Analytics