审查发现,360爬虫爬的频率太高,且爬取的都是无效链接404
问题1:爬虫频率特别高,容易导致服务器负载。
问题2:爬虫机制,审查爬的内容,感觉都是非正常爬取,网站根本没有这个链接,爬取的链接除了2几个首页,其他全都404,请问是恶意爬,还是正常爬,机制不是先爬取某个正常页面,再从正常页面里面的链接再爬吗,你这个感觉就像是恶意扫描,知道网页结构之后,就按照顺序乱爬 这些是百度的爬虫吗? 好的,这位朋友的问题已经提交相关管理技术团队进行核实查看处理,非常感谢朋友对360站长平台的支持!
页:
[1]