火车头采集器采集文章重复解决办法
这两天重新给一个垃圾站开启采集工作。发现了一些问题是采集结果始终是重复2次。采集器默认设置里的“排除重复设置”不起作用。
经过研究发现可以在内 ...
宝塔面板–Nginx反向代理原文件永久缓存的配置
操作环境:宝塔Linux面板,Nginx环境
操作目的:将目标站点的文件按照原文件目录结构完整缓存到本地指定目录。
写这篇教程的原因火车头采集器下载中文图片地址报错:发生错误终止..
报错信息
该问题时网友发现的,采集的内容中图片URL地址包含中文字符。
然后在采集内容时火车头自动下载图片就提示:发生错误终止,远程服务器返回错 ...
火车头搜狐文章搜索结果采集规则
原咨询问题
网友给的采集地址是百度搜索关键词论文,并限制搜索范围为搜狐网站。地址如下:
解决答案因为百度的搜索结果对于URL是加密的,不适合作为 ...
回复“波波兰”的今日头条搜索结果采集问题
波波兰在本站文章下回复想要今日头条搜索资讯采集规则的问题。
我简单看了下页面发现这个挺好采集,下面就说下采集思路过程吧。
波波兰的 ...
justnews主题,火车头发表文章到快讯文章的教程
今天研究新站,发现很多同类型站点都做的有快讯页面。
研究了下发现这个页面还是挺实用的。一些短内容可以一目了然的查看。而且页面会自动更新。
解决火车头采集器https报Object reference not set to an instance of an object错误
解决火车头采集器采集https站点时报Object reference not set to an instance of an object错误 ...
火车头9.8版本,获取列表正常 但发布文章提示 分类id为空
这个问题困扰了我两天,百度和谷歌没有找到任何有用的信息。搜索到的结果基本都是说强制https导致获取列表失败的问题。
本文提到的跟https没 ...
火车头采集今日头条文章的教程
火车头采集今日头条文章的教程
教程总目录:火车头采集器使用教程
今日头条的文章 ...
火车头采集器定时采集更新网站内容(长期做站必用)
火车头采集器定时采集更新网站内容(长期做站必用)
教程总目录:火车头采集器使用教程
...