袁氏家谱网--»论坛 › 活动服务 › 网站服务 › 批量清除word转html冗余代码的正则表达式

发新帖

上一主题

下一主题

开启左侧

批量清除word转html冗余代码的正则表达式

楼主

电梯直达

跳转到指定楼层

yuanscn 发表于 2023-12-28 10:47:00 | 只看该作者回帖奖励

回帖奖励

|倒序浏览 |阅读模式

欢迎注册登录后浏览更多内容！谢谢！

您需要登录才可以下载或查看，没有帐号？注册

x

最好用的正则工具：水淼·正则表达式助手（SMRegular），免费，绿色。正则学习、调试、批处理必备工具。所见即所得，支持目录批量操作。

正则在文本处理应用领域非常广，很多功能都少不了正则，很多复杂、无规则的文本结构都要靠正则来匹配和替换。可谓文本处理魔术师。
本程序提供2种正则应用：
提取根据提取表达式提取出匹配的文本数据
替换根据匹配表达式和替换表达式来替换文本
这两种应用都支持选择文件或文件夹批量处理，并自动在目标文件所在目录中新建目录保存处理后的文件。

水淼正则表达式助手基本简介

   水淼正则表达式助手是基于Deelx正则引擎设计的一款正则表达式工具，提供正则提取和正则替换两大功能，允许用户自定义正则，内置语法参考和学习教程，支持各种复杂的语法，适用于初学者、程序员调试、任务批处理等。

水淼正则表达式助手软件特色

   本程序提供2种正则应用：

   提取根据提取表达式提取出匹配的文本数据。

   替换根据匹配表达式和替换表达式来替换文本。

   这两种应用都支持选择文件或文件夹批量处理，并自动在目标文件所在目录中新建目录保存处理后的文件。

水淼正则表达式助手使用说明

   1.插入内置正则

   2.查看正则语法

水淼正则表达式助手安装步骤

   1.在pc下载网下载最新版软件包。

附：
去除word转htm后冗余代码的正则表达式公式：
查找：
<([^>]*)(?:class|lang|style|size|face|[ovwxp]:w+)=(?:'[^']*'|""[^""]*""|[^>]+)([^>]*)>
替换为空。

去除多余的尾部封装标签：
查找：
<[/]?(font|span|xml|[ovwxp]:w+)[^>]*?>
替换为空。

如果还有残留，可以再单独处理：
   <[^>]*>"; ([^ |>]*); <//?xml[^>]*;  //去除所有的标签
      <script[^>]*?>.*?</script> //去除所有脚本，中间部分也删除
      /<img[^>]*> ,</?SPAN[^>]*>  //去除图片的正则
   <(?!br).*?> //去除所有标签，只剩br
      <table[^>]*?>.*?</table> //去除table里面的所有内容
      <(?!img|br|p|/p).*?> //去除所有标签，只剩img,br,p
<(meta|link|/?o:|/?style|/?font|/?strong|/?st/d|/?head|/?html|body|/?body|/?span|!/[)[^>]*?>
<([^>]*)(?:lang|LANG|class|CLASS|style|STYLE|size|SIZE|face|FACE|[ovwxpOVWXP]:\\w+)=(?:'[^']*'|\"\"[^\"\"]*\"\"|[^>]+)([^>]*)>
经过以上操作。代码就干净了。

分享到: QQ好友和群 QQ空间 腾讯微博 腾讯朋友

收藏0 转播分享 支持0 反对0

回复

使用道具举报

发新帖

首页|家谱查询|字辈查询|手机版|袁氏论坛1|微信登录|QQ登录|综合搜索|

Copyright © 1997-2030 袁氏家谱网_论坛(http://www.yuanscn.com/bbs) 鐗堟潈鎵€鏈� All Rights Reserved.
鍏嶈矗澹版槑: 鏈綉涓嶆壙鎷呬换浣曠敱鍐呭鎻愪緵浜烘彁渚涚殑淇℃伅鎵€寮曡捣鐨勪簤璁拰娉曞緥璐ｄ换銆�

2022-2030骞村煙鍚嶈禐鍔╀汉锛�娴欐睙琚佸法楂�

2021-2025骞寸┖闂磋禐鍔╀汉锛�娴欐睙琚佸法楂�

鄂ICP备11010464号-1 号公安机关备案号 42062502000005

快速回复 返回顶部 返回列表