首先要感谢忧郁剑心 。 我是在本机测试新浪财经,根据现在的源码作了一点修改,最后能浏览到正确的需要结果,按住"Shift"+点击”开始采集"后电脑看起来在运行,但最终什么也没有。 不知问题在哪儿?能只采集几条测试吗? 请帮忙看一下规则是否有错,规则中最后的空格应该删除,正文正则的前面好处理,后面有多种变化方式:
采集页面地址:http://finance.sina.com.cn/roll/world/index.shtml 内容页地址前缀:http://finance.sina.com.cn 过滤广告正则:<span style='font-size:12px;color:red'> 新浪独家稿件声明:该作品(文字、图片、图表及音视频)特供新浪使用,未经授权,任何媒体和个人不得全部或部分转载。 </span><br/>,<style type="text/css">[!--ad--]</style>,<div class="pb">[!--ad--]下一页</span>,<a[!--ad--]>,</a>,<A[!--ad--]>,</A>,<div style="float:left;background:#FFF;border:1px solid #cbd8eb;text-align:center;padding:5px;margin:3px 5px 0 0;">[!--ad--]</div>,<script[!--ad--]</script>,<SCRIPT[!--ad--]</SCRIPT>,<span[!--ad--]>,</span>,<SPAN[!--ad--]>,</SPAN> 信息页链接正则:<li><a href=http://finance.sina.com.cn[!--newsurl--] TARGET=_blank> 标题正则:<title>[!--title--]_国际财经_新浪财经_新浪网</title> 发布时间正则:<div class="from_info">http://www.sina.com.cn [!--newstime--]<span class="linkRed02"> 新闻正文正则:<!-- 内容模块:单图 begin --> <div class="moduleSingleImg01"> <center></center><br /> </div> <!-- 内容模块:单图 end -->
[!--newstext--]
<!-- 行业分类 begin --> <style>
分页形式: 全部列出式 分页区域正则:空 分页链接正则:<a href='[!--pageallzz--]'>
|