火车头如何采集搜狐号自媒体文章-站长资源

针对某一个搜狐号，进入其主页，进行采集，该主页网址无法采集到列表，不能采集到列表也就没法进行批量采集，所以，首先要解决该问题。

其次，搜狐自媒体号上的文章URL都有一定的特点，如下：

http://www.sohu.com/a/变量

我们只需要把这个变量找到就好了！然后用火车头拼接一下URL就可以了。

难点：抓包找数据分析

案例如下：

1、目标搜狐号主页：http://mp.sohu.com/profile?xpt=cHBhZzc5Mjg1OTg1MDkxNEBzb2h1LmNvbQ==&_f=index_pagemp_1

2、fiddler抓包，如下图所示：

查看大图

该网址就是列表url原来的地址： http://mp.sohu.com/apiV2/profile/newsListAjax?xpt=cHBhZzc5Mjg1OTg1MDkxNEBzb2h1LmNvbQ==&pageNumber=1&pageSize=10&categoryId=&_=1513670508722

在火车头中多页采集修改这个地方：pageNumber=1

3、采集文章页URL

把上面的原址用浏览器打开，如下图所示：

我们把黑色圈中的部分采集下来即可。然后火车头采集规则这么编写：

列表页采集到了，内页文章页可以直接看源码编写采集规则，上面是难点，简单的就不啰嗦了。

火车头如何采集搜狐号自媒体文章

相关推荐

评论抢沙发

评论前必须登录！

相关推荐

评论 抢沙发

评论前必须登录！

评论抢沙发