袁氏家谱网--

标题: 批量清除word转html冗余代码的正则表达式 [打印本页]

作者: yuanscn    时间: 2023-12-28 10:47
标题: 批量清除word转html冗余代码的正则表达式
最好用的正则工具:水淼·正则表达式助手(SMRegular),免费,绿色。正则学习、调试、批处理必备工具。所见即所得,支持目录批量操作。

正则在文本处理应用领域非常广,很多功能都少不了正则,很多复杂、无规则的文本结构都要靠正则来匹配和替换。可谓文本处理魔术师。
本程序提供2种正则应用:
提取根据提取表达式提取出匹配的文本数据
替换根据匹配表达式和替换表达式来替换文本
这两种应用都支持选择文件或文件夹批量处理,并自动在目标文件所在目录中新建目录保存处理后的文件。

水淼正则表达式助手基本简介

      水淼正则表达式助手是基于Deelx正则引擎设计的一款正则表达式工具,提供正则提取和正则替换两大功能,允许用户自定义正则,内置语法参考和学习教程,支持各种复杂的语法,适用于初学者、程序员调试、任务批处理等。

水淼正则表达式助手软件特色

      本程序提供2种正则应用:

      提取根据提取表达式提取出匹配的文本数据。

      替换根据匹配表达式和替换表达式来替换文本。

      这两种应用都支持选择文件或文件夹批量处理,并自动在目标文件所在目录中新建目录保存处理后的文件。

水淼正则表达式助手使用说明

      1.插入内置正则

      2.查看正则语法

水淼正则表达式助手安装步骤

      1.在pc下载网下载最新版软件包。

附:
    去除word转htm后冗余代码的正则表达式公式:
查找:
<([^>]*)(?:class|lang|style|size|face|[ovwxp]:w+)=(?:'[^']*'|""[^""]*""|[^>]+)([^>]*)>
替换为空。

    去除多余的尾部封装标签:
查找:
<[/]?(font|span|xml|[ovwxp]:w+)[^>]*?>
替换为空。

    如果还有残留,可以再单独处理:
       <[^>]*>"; ([^ |>]*); <//?xml[^>]*;  //去除所有的标签
        <script[^>]*?>.*?</script> //去除所有脚本,中间部分也删除
        /<img[^>]*> ,</?SPAN[^>]*>  //去除图片的正则
       <(?!br).*?>   //去除所有标签,只剩br
        <table[^>]*?>.*?</table>   //去除table里面的所有内容
        <(?!img|br|p|/p).*?>   //去除所有标签,只剩img,br,p
<(meta|link|/?o:|/?style|/?font|/?strong|/?st/d|/?head|/?html|body|/?body|/?span|!/[)[^>]*?>
<([^>]*)(?:lang|LANG|class|CLASS|style|STYLE|size|SIZE|face|FACE|[ovwxpOVWXP]:\\w+)=(?:'[^']*'|\"\"[^\"\"]*\"\"|[^>]+)([^>]*)>
   经过以上操作。代码就干净了。




欢迎光临 袁氏家谱网-- (http://yuanscn.com/BBS/) Powered by Discuz! X3.2