注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

天朝布衣田中码农参上

苦逼码农的点点滴滴,请多多指教!

 
 
 

日志

 
 
 
 

notepad++怎样提取正则表达式结果  

2017-04-28 10:42:17|  分类: 操作系统 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
Notepad++是 Windows操作系统下的一套文本编辑器(软件版权许可证: GPL),有完整的中文化接口及支持多国语言编写的功能(UTF8技术)。功能比 Windows 中的 Notepad(记事本)强大,除了可以用来制作一般的纯文字说明文件,也十分适合编写计算机程序代码。Notepad++ 不仅有语法高亮度显示,也有语法折叠功能,并且支持宏以及扩充基本功能的外挂模组。一切都看起来这么美好,但是呢,问题就来了。
在上网时,有时某些网页文章内容特殊精彩,想要保存比如想只保留图片链接什么的,而删除其他的不关心内容,要怎么办呢?
1)首先肯定是利用多数浏览器都支持查看源码功能,先把想要提取的源码复制到notepad++里。
2)利用正则表达式,可以轻易把所有的图片地址都搜索到,如下图所示正则【(data-img=")(.*?)(.jpg)】。
notepad++怎样提取正则表达式结果 - sinsunson - 天朝布衣田中码农参上
确实可以搜索出所有jpg图片链接结果,但这个并不是我们的本意,我们的最终目标是提取这段文字中的所有图片地址。但notepad++似乎并没有提供提取正则表达式结果的功能。路看起来不通,但其实逆向思维下,还是可以做的。具体的思路就是先将不要的字符串部分用正则替换成为空同样可以达成我们的目标。那么Just Do It。
3)构建一个去除多余字符的正则【(jpg" /)([\s\S]*?)(data-img=")】,当然这个正则可以针对各种情况自行调整,然后选择替换为【jpg\r\n】。
notepad++怎样提取正则表达式结果 - sinsunson - 天朝布衣田中码农参上
4)执行的结果正如我们所愿,但是似乎还有一些东西可以处理,那就是前后会有一些多余的东西。
notepad++怎样提取正则表达式结果 - sinsunson - 天朝布衣田中码农参上
5)去掉开头和结尾的无用代码,我们需要的代码就自动出来了。
notepad++怎样提取正则表达式结果 - sinsunson - 天朝布衣田中码农参上
notepad++工具的正则替换功能十分强大、灵活,只是转换下思路,就可以有更多的玩法,以上也只是正则表达的简单应用,还有更多功能需要我们自行去研究。
注意事项:
这里讲述的只是思路,此正则并不一定适应所有网页,有时需要改一下正则表达式。
 

 



 
  评论这张
 
阅读(2)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017