站长资源
中国站长网站

火车头采集分页内容,分页内容如何采集?

火车头不同的版本设置有些不一样,从网上找的一些内容是一个老版本的,估计是7,8 版本,我这里用的是9.0.11.19版本,就是9版本吧。在网上找的一些设置截图都是不一样的。这里我讲下火车头采集9是如何设置内容页面分页采集的。

我们以火狐社会那个网站为采集列表页面讲。

首先添加列表页地址:

然后设置采集区域和链接提取规则,

采集区域

从 <div class=”fl main_left”> 到 <div class=”fr main_right”>

提取规则 <a class=”(*)” href=”[参数]” target=”_blank”> 然后在拼接di

接下来就是内容页面分页了。

分页有两种情况,第一种是“首页全部列出” ,第二种是“上下页模式”。

这里以这个采集地址为主,我们主要讲首页全部列出的情况。

其实内容页面分页 和 列表页面的分页是差不多的

找到内容页面分页的采集区域是

<p class=’article_pages’> 到 </p> ,查看源代码看到

然后连接提取出来 <a href=”[参数]”

到了这里再进行熟悉的内容匹配

区域是 <div class=”article_content”> 到  <span id=”advbox”></span>

然后测试我们的网址

比对下我们的火狐的那个新闻地址,发现我们只是采集了第一页而已。

这里我也耽误了很久,查找了很多,就是找不到为什么,只采集第一页的内容。

因为9这个版本和之前的不一样。用的人估计也不是很多。估计网上有很多破解版的,

他们图个方便,也不会去官方下载,这里建议还是不要搞什么破解版本的,不晓得里面加了什么东西。

关键的一步是

点击内容标签=》数据来源=》点击第一个三角 然后会出来一个列表让你选择=》我们选择默认页和内容分页源码

这里的三个选项分别是 :1.默认页面 2.默认页和内容分页源码 3.关联多页。

再次采集。

大功告成。 

本文出处:来自互联网信息共享,请勿相信收费信息站长资源 » 火车头采集分页内容,分页内容如何采集?

评论 抢沙发

评论前必须登录!