一、操作目的:从网页源代码中获取标题和内容。并保留标题和正文的网页标签<h2>和<p>。
网页源代码如下:
<h2 class="rich_media_title" id="activity-name">袁白燕小考</h2>
<div id="meta_content" class="rich_media_meta_list"><span class="rich_media_meta rich_media_meta_text">万德敬</span> <span class="rich_media_meta rich_media_meta_nickname" id="profileBt"><a href="javascript:void(0);" id="js_name">袁氏文化</a></span>
<div id="js_profile_qrcode" class="profile_container" style="display:none;"><span class="rich_media_meta rich_media_meta_nickname" id="profileBt"></span>
<div class="profile_inner"><span class="rich_media_meta rich_media_meta_nickname" id="profileBt"><strong class="profile_nickname">袁氏宗族文化</strong> <img class="profile_avatar" id="js_profile_qrcode_img" src="%C3%94%C2%AC%C3%8A%C3%8F%C3%97%C3%9A%C3%97%C3%A5%C3%8E%C3%84%C2%BB%C2%AF-37_files/Xy4xVKPpN36L91LMKqFb5A" alt=""></span>
<p class="profile_meta"><span class="rich_media_meta rich_media_meta_nickname" id="profileBt"><label class="profile_meta_label">微信号</label> <span class="profile_meta_value">yuanshiwh</span></span></p>
<p class="profile_meta"><label class="profile_meta_label">功能介绍</label> <span class="profile_meta_value">传承宗族文化,弘扬中华美德!</span></p>
</div>
<span class="profile_arrow_wrp" id="js_profile_arrow_wrp"> </span></div>
<em id="publish_time" class="rich_media_meta rich_media_meta_text">2018-11-02</em></div>
<div class="rich_media_content" id="js_content">
<p><span style="font-size:16px;font-family:宋体;">【摘要】 袁凯是元末明初著名的诗人,以《白燕》诗闻名。人称“袁白燕”,享年当在百岁上下。但是,关于他的生卒年代,清初就有人质疑,当今学术界对袁凯生卒年代的说法也多牵强。袁凯之父袁介也是当时著名诗人,有作品传世。然而,明清两代许多文献对于袁介存世的界定是不符合史实的。袁介为袁凯的文学才华提供了家学滋养,袁凯也很有乃父之风。现实中的袁凯喜欢交游,与之交游者多为当时俊彦。袁凯与家人感情甚笃,相濡以沫。饱读诗书的袁凯一生有仕有隐,富有传奇色彩,其后裔却湮没无闻。</span></p>
<p><span style="font-size:16px;font-family:宋体;"><br></span></p>
<p style="text-align: center;"><img class="" data-copyright="0" data-ratio="0.66" data-s="300,640" data-src="https://mmbiz.qpic.cn/mmbiz_jpg/zFYUkAWtBa1ORrZ3ia9jVw5dkSuVVgPK7HuONuqZwk99QsDkKTnYy6EUt90hTM9A5DSMjxQMiaEctl4KT42MWbgQ/640?wx_fmt=jpeg" data-type="jpeg" data-w="600" style="width: 328px !important; height: auto !important; visibility: visible !important;" src="%C3%94%C2%AC%C3%8A%C3%8F%C3%97%C3%9A%C3%97%C3%A5%C3%8E%C3%84%C2%BB%C2%AF-37_files/640" crossorigin="anonymous" data-fail="0"></p>
<p style="text-align: center;"><br></p>
<p style="text-align: center;"><strong><span style="font-size: 18px;text-indent: 0em;font-family: 宋体;">一、袁凯的生卒年代</span></strong></p>
<p><span style="font-size:16px;font-family:宋体;"> </span></p>
<p><span style="font-size:16px;font-family:宋体;">《明史·袁凯传》曰:袁凯,字景文,松江华亭人。元末为府吏,博学有才辩,议论飚发,往往屈座人。洪武三年,荐授御史。武臣恃功骄恣,得罪者渐众。凯上言:“诸将习兵事,恐未悉君臣礼,请于督都府延通经学古之士,令诸武臣赴都堂听讲,庶得保族全身之道。”帝敕台省延名士直午门,为诸将说书。后帝虑囚毕,命凯送皇太子覆讯,多得矜减。凯还报,帝问:“朕与太子孰是?”凯顿首:“陛下法之正,东宫心之慈”。帝以凯老猾持两端,恶之。凯惧,佯狂免,告归,久之以寿终。凯工诗,有盛名。性诙谐,自号海叟。背戴乌巾,倒骑黄牛,游行九峰间,好事者至绘为图。初,在杨维桢座,客出所赋《白燕诗》,凯微笑,别作一篇以献。维桢大惊赏,遍示座客,人遂呼为“袁白燕”云。</span></p>
二、使用工具:
水淼正则表达式助手(SMRegular)v1.6.3.1 基于Deelx引擎
提取标题正则表达式:
<h2.*>.*[\u4e00-\u9fa5].*</h2>
运行结果:
<h2 class="rich_media_title" id="activity-name">袁白燕小考</h2>
提取标题正则表达式:
<p>.*[\u4e00-\u9fa5].*</p>
提取结果:
<p><span style="font-size:16px;font-family:宋体;">【摘要】 袁凯是元末明初著名的诗人,以《白燕》诗闻名。人称“袁白燕”,享年当在百岁上下。但是,关于他的生卒年代,清初就有人质疑,当今学术界对袁凯生卒年代的说法也多牵强。袁凯之父袁介也是当时著名诗人,有作品传世。然而,明清两代许多文献对于袁介存世的界定是不符合史实的。袁介为袁凯的文学才华提供了家学滋养,袁凯也很有乃父之风。现实中的袁凯喜欢交游,与之交游者多为当时俊彦。袁凯与家人感情甚笃,相濡以沫。饱读诗书的袁凯一生有仕有隐,富有传奇色彩,其后裔却湮没无闻。</span></p>
<p><span style="font-size:16px;font-family:宋体;"><br></span></p>
<p><span style="font-size:16px;font-family:宋体;"> </span></p>
三、批量提取
正则表达式助手-正则提取-批量提取-修改输出路径-开始-完成-生成新目录《批量提取结果》
四、进一步优化
工具:UtraReplace(超级批量文本替换5.0)。可以把整个文件夹一次性处理。支持一般替换、开始和结尾特征替换、正则替换。
可以用一般替换分几次查找下面内容,并替换为空白
class="rich_media_title" id="activity-name"
<span style="font-size:16px;font-family:宋体;"><br></span>
<p><span style="font-size:16px;font-family:宋体;"> </span></p>
五、加工成网页
在提取的干净的带有<p>文本</p>标签的内容,用超级批量文本替换工具在开头和结尾分别加上自己的页头和页脚。
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>袁氏文化之窗</title>
<meta name="keywords" content="袁氏文化之窗" />
<meta name="description" content="袁氏文化之窗" />
<link rel="shortcut icon" href="images/yuanscn.ico" type="image/x-icon" />
<link rel="stylesheet" type="text/css" href="../css/pubsty.css" />
</head>
<body>...
...
<div class="footer">
<p>鄂ICp备11010464号-1 号</p>
<p>公安机关备案号 42062502000005</p>
<p>网站管理员袁资友:13972096021</p>
...
<p>袁氏家谱网 版权所有</p>
</div>
</body>
</html> |