袁氏家谱网--
标题:
批量清除word转html冗余代码的正则表达式
[打印本页]
作者:
yuanscn
时间:
2023-12-28 10:47
标题:
批量清除word转html冗余代码的正则表达式
最好用的正则工具:水淼·正则表达式助手(SMRegular),免费,绿色。正则学习、调试、批处理必备工具。所见即所得,支持目录批量操作。
正则在文本处理应用领域非常广,很多功能都少不了正则,很多复杂、无规则的文本结构都要靠正则来匹配和替换。可谓文本处理魔术师。
本程序提供2种正则应用:
提取根据提取表达式提取出匹配的文本数据
替换根据匹配表达式和替换表达式来替换文本
这两种应用都支持选择文件或文件夹批量处理,并自动在目标文件所在目录中新建目录保存处理后的文件。
水淼正则表达式助手基本简介
水淼正则表达式助手是基于Deelx正则引擎设计的一款正则表达式工具,提供正则提取和正则替换两大功能,允许用户自定义正则,内置语法参考和学习教程,支持各种复杂的语法,适用于初学者、程序员调试、任务批处理等。
水淼正则表达式助手软件特色
本程序提供2种正则应用:
提取根据提取表达式提取出匹配的文本数据。
替换根据匹配表达式和替换表达式来替换文本。
这两种应用都支持选择文件或文件夹批量处理,并自动在目标文件所在目录中新建目录保存处理后的文件。
水淼正则表达式助手使用说明
1.插入内置正则
2.查看正则语法
水淼正则表达式助手安装步骤
1.在pc下载网下载最新版软件包。
附:
去除word转htm后冗余代码的正则表达式公式:
查找:
<([^>]*)(?:class|lang|style|size|face|[ovwxp]:w+)=(?:'[^']*'|""[^""]*""|[^>]+)([^>]*)>
替换为空。
去除多余的尾部封装标签:
查找:
<[/]?(font|span|xml|[ovwxp]:w+)[^>]*?>
替换为空。
如果还有残留,可以再单独处理:
<[^>]*>"; ([^ |>]*); <//?xml[^>]*; //去除所有的标签
<script[^>]*?>.*?</script> //去除所有脚本,中间部分也删除
/<img[^>]*> ,</?SPAN[^>]*> //去除图片的正则
<(?!br).*?> //去除所有标签,只剩br
<table[^>]*?>.*?</table> //去除table里面的所有内容
<(?!img|br|p|/p).*?> //去除所有标签,只剩img,br,p
<(meta|link|/?o:|/?style|/?font|/?strong|/?st/d|/?head|/?html|body|/?body|/?span|!/[)[^>]*?>
<([^>]*)(?:lang|LANG|class|CLASS|style|STYLE|size|SIZE|face|FACE|[ovwxpOVWXP]:\\w+)=(?:'[^']*'|\"\"[^\"\"]*\"\"|[^>]+)([^>]*)>
经过以上操作。代码就干净了。
欢迎光临 袁氏家谱网-- (http://yuanscn.com/BBS/)
Powered by Discuz! X3.2