一篇文章让你无视80%的反爬网站!

任佳伟

42910

2018-11-20 20:07

42910

任佳伟

有人的地方就有江湖，在爬虫的世界里也是一样。很多新手同学的爬虫简单粗暴，不管对端服务器的压力，直接多线程、多进程爬虫疯狂搞事。

服务器端

你要搞事是吧？我就不让你搞事！

爬虫

你不让我搞事是吧？我偏要搞事！

于是就有了反爬虫，有反爬虫就有反反爬虫，有反反爬虫就有反反反爬虫…

在看了前几期文章后有很多小伙伴已经能自己敲出指哪儿爬哪儿的爬虫了，却被亚马逊的反爬虫所困扰。爬着爬着弹个验证码、不返回正常数据，咋整？

所谓道高一尺魔高一丈，下面将为大家列举亚马逊的几种反爬手段及解决办法！

一、通过headers字段来反爬

Headers是什么？

首先要说明一下HTTP是“Hypertext Transfer Protocol”的所写，整个万维网都在使用这种协议，几乎你在浏览器里看到的大部分内容都是通过http协议来传输的，而Headers是HTTP请求和相应的核心，它承载了关于客户端浏览器，请求页面，服务器等相关的信息。

下图就是访问https://www.amazon.com/时的Request Headers：

其中包含了authority、cookie、user-agent等字段。

1、通过User-Agent字段来反爬

User Agent中文名为用户代理，简称 UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

标准格式为： 浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识版本信息。

大多数网站都会在后台的根目录下放置一个名为“robots.txt”的文件，在这个文件中规定了某些特定的User-Agent哪些页面可以访问，哪些页面不可以访问。如亚马逊美国站的“robots.txt”地址为：https://www.amazon.com/robots.txt，大家可以访问看一看。robots.txt一般称为robots协议，可以说是一个君子协议，遵不遵守还看个人。我们可以考虑收集一堆User-Agent的方式，或者是随机生成User-Agent，达到伪造User-Agent的目的，即可解决这种反爬手段。

2、通过referer字段或者是其他字段来反爬

Referer记录了你是从什么网站跳转到该网站的。比如通过Google搜索到Amazon.com，再点击跳转，那么本次请求中的headers中就会包含Referer：http://www.google.com，表示你从谷歌跳转而来。通过referer字段反爬，一般在针对图片、视频、音频资源时出现较多，当你访问这些资源时，服务端检查你的referer字段非正常便会给你返回一些假资源，如我们早年玩儿的QQ空间、天涯社区针对图片资源反爬出现的“盗链图片”：

通过referer字段反爬，我们也可以在headers中伪造referer字段来解决。

3、通过cookie来反爬

Cookie是网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据。如果目标网站不需要登录，每次请求带上前一次返回的cookie，比如requests模块的session，即可达到反爬目的。

如访问亚马逊美国站中ASIN为：XXX的商品，每次都带上不同的cookie，代码如下：

import requests
 
 headers = {
     'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',
     'Referer': "www.google.com"
 }
 session = requests.session()

# 先访问亚马逊主界面拿到cookies，保持会话。
 session.get('https://www.amazon.com', headers=headers)

如果目标网站需要登录的话则准备多个账号，通过一个程序获取账号对应的cookie，组成cookie池，其他程序使用这些cookie即可访问到登陆后的页面。

二、通过验证码来反爬

上一次prime day亚马逊全站都开启验证码，那种寸步难行的感觉不知大家还记不记得？通过验证码来反爬是大多数网站通用的一种反爬手段，比较出名的有12306、google人机测试、极验滑块等。在这些验证码面前，亚马逊验证码还是显得很照顾用户体验的，至少没弹出什么奇奇怪怪的东西让我们点选，只是单纯的4-6位字母，那么要识别它还是挺Easy的！

Python通过获取大量的验证码图片素材，使用OCR、PIL、SVM等库进行验证码图片的二值化、切割、模型训练，最终可实现对亚马逊验证码的识别。

自己用Python识别这么多步骤、

这么多东西，搞起来是不是很难？

难！肯定是要花点儿时间的！

那咋整？

有一种东西“打码平台”！把验证码图片上传给他，在规定时间内（一般60S内）就会返回识别后的验证码。

下面是某打码平台的价格表：

该打码平台的充值比例为1元=2500快豆，如果我们选择6位纯字母模式识别的话，1块钱就可以识别166.66次…是不是超便宜？

各个打码平台的使用方法不一，这里就不贴代码了。选定一家打码平台，联系客服或者查看开发者文档demo，轻轻松松就能通过代码的形式搞定亚马逊验证码。

当然，有实力、有兴趣的同学还是建议自己弄验证码识别，毕竟是一劳永逸的事情。

三、通过ip地址来反爬

同一个ip大量请求了对方服务器，有更大的可能性会被识别为爬虫，ip就有可能被暂时拉进小黑屋。咋办？

别怕！用代理ip，完美解决这种反爬手段。

什么是代理ip？就好似你找了一个代理人，让他去访问你的目标网站，然后跟他要目标网站给他的数据

如图:

根据代理ip的匿名程度，代理ip可以分为下面四类：

透明代理（Transparent Proxy）Transparent Proxy)：透明代理虽然可以直接“隐藏”你的IP地址，但是还是可以查到你是谁。

匿名代理（Anonymous Proxy）：匿名代理比透明代理进步了一点：别人只能知道你用了代理，无法知道你是谁。
混淆代理（Distorting Proxies）：与匿名代理相同，如果使用了混淆代理，别人还是能知道你在用代理，但是会得到一个假的IP地址，伪装的更逼真
高匿代理（Elite proxy或High Anonymity Proxy）：可以看出来，高匿代理让别人根本无法发现你是在用代理，所以是最好的选择。

在使用的使用，毫无疑问使用高匿代理效果最好

从使用的协议：代理ip可以分为http代理，https代理，socket代理等，使用的时候需要根据抓取网站的协议来选择

在Python的requests库中，也早已设计了使用代理IP的方法：

import requests
 proxies = {
   "http": "http://10.10.1.10:3128",
   "https": "http://10.10.1.10:1080",
 }
 requests.get("http://httpbin.org/ip", proxies=proxies)

四、通过前端样式反爬

上面是亚马逊搜索页面翻页的两种前端样式，估计一般人都不会注意这里有什么变化。两种前端的代码也有所不同，如果你的爬虫只针对其中一种页面获取下一页的url，就会导致你的爬虫在遇到另外一种翻页样式时挂掉。

这也正是亚马逊的高明之处，与国内电商相比，它在照顾用户体验的同时，也达到了反爬的目的。针对这种情况我们需要在爬虫里首先判断当前页面是哪种前端样式（多写两个if…else），这样才能兼容两种样式。

以上就是本人在编写亚马逊爬虫中遇到的反爬手段，希望能对大家有一些帮助！

最后希望大家且爬且珍惜，假如只要单纯商品的详情、报价和Sales Rank，用MWS API 就好。假如用爬虫，切记不要暴力的爬！破解验证码是有风险的，假如破解后还暴力的爬，那下次亚马逊恼羞成怒，可能就换另一种更强的反爬虫机制了，到时可就没得爬咯！

免责声明

本文链接:

本文经作者许可发布在AMZ123跨境头条，如有疑问，请联系客服。

拓谷思年度独立站+SEO大会回顾

建议eBay这么升级拍卖，将打破跨境格局

最新热门报告作者标签

Ozon计划26年新增15个物流中心，投资超300亿卢布

俄罗斯电商平台Ozon表示，2026年计划在俄罗斯新增15个物流综合设施，其中包括大型全流程履约中心以及用于存储和处理大件商品的物流设施。

26年巴西情人节消费达220亿雷亚尔，服饰美妆成热门品类

2026年巴西情人节（Dia dos Namorados）消费超过220亿雷亚尔，服装、化妆品、香水和鞋类成为最受关注的消费品类。

每15秒售出一件，TikTok Shop英国宠物品类快速增长

TikTok Shop公布数据显示，2025年平台宠物护理品类销售额同比增长超过60%，宠物用品正在成为平台增长较快的消费类别之一。在英国市场，TikTok Shop平均每15秒售出一件宠物产品，宠物食品相关内容也持续增加，其中猫粮相关帖子数量超过82.5万条，狗粮相关帖子数量超过57.2万条。

26年1-4月美国玩具市场销售额增长13%，女性成为主力

2026年1月至4月期间，美国玩具行业超过一半的增长来自女性消费者。同时，18岁及以上成年消费者贡献了整个玩具行业35%的增长，成人消费正在成为推动市场扩张的重要因素。

AMZ123会员专享丨7月第2周资讯汇总

亚马逊亚马逊宣布与MyFlexBox达成战略合作，其德国所有智能快递柜将接入亚马逊配送体系，并成为欧洲首个向亚马逊开放的大规模中立柜机网络。用户在结账时可选24/7自提点，提升取件灵活性。合作旨在共建共享末端基础设施，覆盖零售点、加油站等场景，减少重复配送、提高效率。7月6日曝光的官方文件显示，亚马逊在华盛顿州新一轮裁撤57个岗位，涉及多条业务线，其中包含总监、高级经理等中高层管理岗。7月7日，亚马逊宣布，亚马逊全球智能枢纽仓正式落地华东地区，上海、宁波双仓正式启用。这是继GWD深圳首仓全面运营后，亚马逊在完善跨境物流网络上的又一关键布局。

TikTok美区推行三级架构保证金，风险保证金最高$10000

重磅！TikTok美区新增保证金，卖家速查后台

紧急调整！美国CPSC法规给卖家暂时“松绑”了

在跨境电商迈入升级赛道的当下，合规化浪潮正以迅雷不及掩耳之势席卷整个行业。一系列政策法规如同多米诺骨牌般接连落地，逐渐渗透到跨境电商产品质检、税务申报、物流清关等流程。其中在近期讨论热度最高的，莫过于美国最新生效的CPSC法规。进入7月以来，CPSC电子申报（eFiling）新规在业内被高频提及。据业内消息，按原定计划，自7月8日起，美国消费品安全委员会（CPSC）将联合美国海关与边境保护局（CBP）全面施行电子申报（eFiling）新规，所有受CPSC监管的进口消费品需在清关前完成GCC/CPC合格证书电子申报，未按要求申报可能导致清关延误或货件被拒、退运。

TikTok Shop美区保证金大改！金额不再统一，速查后台应缴额！

告别“多类目叠加”，卖家该如何应对？

26年亚马逊头部卖家格局生变，中国卖家占比升至55.9%

截至2026年7月，中国卖家在亚马逊美国站前10000名卖家占比已提升至55.9%，美国卖家则降至40.5%。仅过去12个月，中国卖家的份额就提升了3.8%。

紧急调整！美国CPSC法规给卖家暂时“松绑”了

AMZ123会员专享丨7月第2周资讯汇总

每15秒售出一件，TikTok Shop英国宠物品类快速增长

26年1-4月美国玩具市场销售额增长13%，女性成为主力

Ozon计划26年新增15个物流中心，投资超300亿卢布

俄罗斯电商平台Ozon表示，2026年计划在俄罗斯新增15个物流综合设施，其中包括大型全流程履约中心以及用于存储和处理大件商品的物流设施。

TikTok美区推行三级架构保证金，风险保证金最高$10000

重磅！TikTok美区新增保证金，卖家速查后台

26年巴西情人节消费达220亿雷亚尔，服饰美妆成热门品类

2026年巴西情人节（Dia dos Namorados）消费超过220亿雷亚尔，服装、化妆品、香水和鞋类成为最受关注的消费品类。

《全球宠物行业趋势与中国增长机遇报告》PDF下载

宠物行业全年的销售额为660亿美元与去年同期相比增长了2.1%。

《TikTok Shop 2024-2025 西班牙站点报告》PDF下载

在全球社交电商高速发展的时代浪潮中，TikTok已然崛起为品牌与消费者深度互动的重要阵地。TikTok不仅重塑了用户的消费习惯，更开创了"发现式购物"的新模式，为品牌营销带来了前所未有的机遇与挑战。

《2026年全球电商行业趋势洞察报告》PDF下载

报告深度解读 2026 年全球电商行业发展趋势，全面剖析移动端与网页端市场格局、各区域网站流量增长动态，以及综合电商、服饰电商、美妆电商等核心赛道的细分趋势与头部玩家表现。报告同步收录标杆案例，拆解Nykaa、0live Young、UNIQLO 等区域头部电商的业务亮点、广告策略与用户画像，为品牌制定精准市场策略提供决策参考。

《2026年电子元器件行业趋势与策略解读》PDF下载

据世界半导体贸易统计组织(WSTS)预测报告显示，2025年全球半导体营收将同比增长22.5%至7720亿美元，2026年将再度增长26.3%至9750亿美元，逼近1万亿美元大关;

《2025-Q1亚马逊沃尔玛全球电商CPC数据报告》PDF下载

我们整合了Pacvue和Helium 10的专有数据库，全方位展示行业内范围最广的电商数据。这份报告包括数万家大中小型规模，不同品类广告主的数据，以及几个主要品类的详细分析。

《男装休闲服装品类2026秋冬趋势报告》PDF现在

服装买家高度关注市场趋势，具有高频复购的特点，对趋势品的诉求相对更高，对于新品至少提前2-3个月进行采购且主要通过社媒获取服装趋势;

《美客多趋势报告-智利站》PDF下载

在当今的消费环境中，每一次购物都成为消费者身份的体现，反映出消费者的兴趣、欲望和价值观。这些选择受到时代和文化的影响，不仅展现了消费者的偏好，也塑造了消费者与市场的关系。

《拉美八国经贸与投资概览》PDF下载

中国与古巴1960年建立外交关系，正式开启了中国与拉美地区合作的新纪元。截至目前，中国已与26个拉美和加勒比国家建立外交关系，并同其中22个国家签署了共建“一带一路”合作文件，关系不断深化。

亚马逊资讯

AMZ123旗下亚马逊资讯发布平台，专注亚马逊全球热点事件，为广大卖家提供亚马逊最新动态、最热新闻。