火车头采集器采集瀑布流Ajax类网站

2022年7月8日教程大全Ajax,Ajax采集,瀑布流,火车头采集器

教程总目录:火车头采集器使用教程

前面文章我们写了通过post请求方式采集Ajax类网站的教程,另外有很多瀑布流Ajax加载的网站无需post数据,直接可以找出列表页地址采集。下面介绍几种常见的瀑布流网站采集。

1.加载新内容会更新URL地址

这类网站时最好采集的,他的Ajax只是实现了页面不刷新的情况下加载新的内容。但是列表URL会直接在浏览器地址栏显示出来。我们可以直接访问到列表页数据。

示例网站:https://mnews.pro/category/yjs

这个站页面下拉会加载第二页,同时浏览器URL变为

https://mnews.pro/category/yjs/page/2

访问/page/2地址并Ctrl+U 可直接查看到文章数据。

这种我们直接可以在火车头使用常规方式采集即可。

列表页数可以试用笨方法直接更改页码测试有多少页数据即可。

2.加载新内容不更新URL

示例网站

https://demo.wpcom.cn/justnews/category/%e4%ba%a7%e5%93%81%e8%ae%be%e8%ae%a1

这个站点的列表页我们下拉会自动加载第二页内容。但是浏览器地址栏并不会更新URL。

实际上他的第二页列表地址是存在的,而且可以直接访问并查看到内容。

对于这类站点,我建议是直接手动访问列表页地址。同样不使用post数据方式请求。

https://demo.wpcom.cn/justnews/category/%e5%88%9b%e4%b8%9a%e5%88%86%e4%ba%ab/page/2

可以访问上面地址看下内容。

然后使用常规采集方式即可。

但是我举例的网站都是wordpress站点,对于其他站点来说,你不一定能找得到他的分页URL地址规则。

这时候我们也可以是继续用post方式进行获取文章列表。

参考这个文章:火车头采集器V9版使用Post方法采集Ajax页面

post地址可以在浏览器中查看。

Posted by 柴郡猫