023-67990117    15310239873  
/
/
/
/
/
/
/

网站的反爬机制

发布时间:2019-09-30 浏览次数:18次 作者:023web 来源:重庆网站建设
 1、注意很多网站,可以先用代理ip+ua(ua库随机提取)访问,之后会返回来一个cookie,那ip+ua+cookie就是一一对应的,然后用这个ip、ua和cookie去采集网站,同时能带上Referer,这样效果会比较好
 
  2、有些网站反爬取的措施应该比较强的。访问之后每次清除缓存,这样能有效规避部分网站的检测;但是有些网站更严格的判断,如果都是新链接从ip发出,也会被判定拒绝(直接403拒绝访问),因此有些爬虫客户会去分析网站的cookies缓存内容,然后进行修改。
 
  3、浏览器的标识(User-Agent)也很重要,用户都是一种浏览器,也是容易判断作弊,要构造不同的浏览器标识,否则容易被判定爬虫。https://httpbin.org/headers,用代理访问之后,浏览器标识需要修改,建议浏览器用phantomjs框架,这个可以模拟其他浏览器的标示(需要标示库的话,我们亿牛云代理可以提供1000+),可以通过API接口实现各种浏览器的采集模拟。
 
  4、加密:网站的请求如果加密过,那就看不清请求的本来面目,这时候只能靠猜测,通常加密会采用简单的编码,如:base64、urlEncode等,如果过于复杂,只能穷尽的去尝试
 
  5、本地IP限制:很多网站,会对爬虫ip进行限制,这时候要么使用代理IP,要么伪装ip


标签:
最新案例
让价值共享,记录我们发展脚步,也让您获取的知识...
  • 中国陶瓷总部

    营销型网站建设

    中国陶瓷总部
  • 碧桂园深圳家和盛世网点分公司

    营销型网站建设

    碧桂园深圳家和盛世网点分公司
  • 重庆显固科技有限公司

    企业网站建设

    重庆显固科技有限公司
  • 版权所有:重庆面朝大海网络科技有限公司 Copyright © 2018-2019 www.023web.com All Rights Reserved. ICP备案编号: 渝ICP备16001242号-1
    热门搜索词:重庆网站建设,重庆网站制作,重庆网站设计
  • 023-67990117

    1477875742

    返回顶部