AMZ123跨境卖家导航
拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条文章详情

亚马逊反爬,看这一篇就够了!

52604
2018-11-06 19:27
2018-11-06 19:27
52604

有人的地方就有江湖,在爬虫的世界里也是一样。很多新手同学的爬虫简单粗暴,不管对端服务器的压力,直接多线程、多进程爬虫疯狂搞事。


服务器端

你要搞事是吧?我就不让你搞事!

爬虫

你不让我搞事是吧?我偏要搞事!



于是就有了反爬虫,有反爬虫就有反反爬虫,有反反爬虫就有反反反爬虫…


在看了前几期文章后有很多小伙伴已经能自己敲出指哪儿爬哪儿的爬虫了,却被亚马逊的反爬虫所困扰。爬着爬着弹个验证码、不返回正常数据,咋整?

所谓道高一尺魔高一丈,下面将为大家列举亚马逊的几种反爬手段及解决办法!



一、通过headers字段来反爬


Headers是什么?

首先要说明一下HTTP是“Hypertext Transfer Protocol”的所写,整个万维网都在使用这种协议,几乎你在浏览器里看到的大部分内容都是通过http协议来传输的, 而Headers是HTTP请求和相应的核心,它承载了关于客户端浏览器,请求页面,服务器等相关的信息。


下图就是访问https://www.amazon.com/时的Request Headers:



其中包含了authority、cookie、user-agent等字段。


1、通过User-Agent字段来反爬

User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。


标准格式为: 浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识 版本信息。


大多数网站都会在后台的根目录下放置一个名为“robots.txt”的文件,在这个文件中规定了某些特定的User-Agent哪些页面可以访问,哪些页面不可以访问。如亚马逊美国站的“robots.txt”地址为:https://www.amazon.com/robots.txt,大家可以访问看一看。robots.txt一般称为robots协议,可以说是一个君子协议,遵不遵守还看个人。我们可以考虑收集一堆User-Agent的方式,或者是随机生成User-Agent,达到伪造User-Agent的目的,即可解决这种反爬手段。


2、 通过referer字段或者是其他字段来反爬

Referer记录了你是从什么网站跳转到该网站的。比如通过Google搜索到Amazon.com,再点击跳转,那么本次请求中的headers中就会包含Referer:http://www.google.com,表示你从谷歌跳转而来。通过referer字段反爬,一般在针对图片、视频、音频资源时出现较多,当你访问这些资源时,服务端检查你的referer字段非正常便会给你返回一些假资源,如我们早年玩儿的QQ空间、天涯社区针对图片资源反爬出现的“盗链图片”



通过referer字段反爬,我们也可以在headers中伪造referer字段来解决。


3、 通过cookie来反爬

Cookie是网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据。如果目标网站不需要登录,每次请求带上前一次返回的cookie,比如requests模块的session,即可达到反爬目的。


如访问亚马逊美国站中ASIN为:XXX的商品,每次都带上不同的cookie,代码如下:


import requests

headers = {
   
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',
   
'Referer': "www.google.com"
}
session = requests.session()
# 先访问亚马逊主界面拿到cookies,保持会话。
session.get(
'https://www.amazon.com', headers=headers)


如果目标网站需要登录的话则准备多个账号,通过一个程序获取账号对应的cookie,组成cookie池,其他程序使用这些cookie即可访问到登陆后的页面。

 

 

 

二、通过验证码来反爬


上一次prime day亚马逊全站都开启验证码,那种寸步难行的感觉不知大家还记不记得?通过验证码来反爬是大多数网站通用的一种反爬手段,比较出名的有12306、google人机测试、极验滑块等。在这些验证码面前,亚马逊验证码还是显得很照顾用户体验的,至少没弹出什么奇奇怪怪的东西让我们点选,只是单纯的4-6位字母,那么要识别它还是挺Easy的!


Python通过获取大量的验证码图片素材,使用OCR、PIL、SVM等库进行验证码图片的二值化、切割、模型训练,最终可实现对亚马逊验证码的识别。


自己用Python识别这么多步骤、

这么多东西,搞起来是不是很难?

难!肯定是要花点儿时间的!

那咋整?



有一种东西“打码平台”!把验证码图片上传给他,在规定时间内(一般60S内)就会返回识别后的验证码。


下面是某打码平台的价格表:



该打码平台的充值比例为1元=2500快豆,如果我们选择6位纯字母模式识别的话,1块钱就可以识别166.66次…是不是超便宜?


各个打码平台的使用方法不一,这里就不贴代码了。选定一家打码平台,联系客服或者查看开发者文档demo,轻轻松松就能通过代码的形式搞定亚马逊验证码。


当然,有实力、有兴趣的同学还是建议自己弄验证码识别,毕竟是一劳永逸的事情。



三、通过ip地址来反爬


同一个ip大量请求了对方服务器,有更大的可能性会被识别为爬虫,ip就有可能被暂时拉进小黑屋。咋办?


别怕!用代理ip,完美解决这种反爬手段。


什么是代理ip?就好似你找了一个代理人,让他去访问你的目标网站,然后跟他要目标网站给他的数据


如图:


根据代理ip的匿名程度,代理ip可以分为下面四类:


  • 透明代理(Transparent Proxy)Transparent Proxy):透明代理虽然可以直接“隐藏”你的IP地址,但是还是可以查到你是谁。

  • 匿名代理(Anonymous Proxy):匿名代理比透明代理进步了一点:别人只能知道你用了代理,无法知道你是谁。


  • 混淆代理(Distorting Proxies):与匿名代理相同,如果使用了混淆代理,别人还是能知道你在用代理,但是会得到一个假的IP地址,伪装的更逼真


  • 高匿代理(Elite proxy或High Anonymity Proxy):可以看出来,高匿代理让别人根本无法发现你是在用代理,所以是最好的选择。


在使用的使用,毫无疑问使用高匿代理效果最好


从使用的协议:代理ip可以分为http代理,https代理,socket代理等,使用的时候需要根据抓取网站的协议来选择


在Python的requests库中,也早已设计了使用代理IP的方法:

import requests
proxies = {
 
"http": "http://10.10.1.10:3128",
 
"https": "http://10.10.1.10:1080",
}
requests.get(
"http://httpbin.org/ip", proxies=proxies)



四、通过前端样式反爬

上面是亚马逊搜索页面翻页的两种前端样式,估计一般人都不会注意这里有什么变化。两种前端的代码也有所不同,如果你的爬虫只针对其中一种页面获取下一页的url,就会导致你的爬虫在遇到另外一种翻页样式时挂掉。


这也正是亚马逊的高明之处,与国内电商相比,它在照顾用户体验的同时,也达到了反爬的目的。针对这种情况我们需要在爬虫里首先判断当前页面是哪种前端样式(多写两个if…else),这样才能兼容两种样式。


以上就是本人在编写亚马逊爬虫中遇到的反爬手段,希望能对大家有一些帮助!


最后希望大家且爬且珍惜,假如只要单纯商品的详情、报价和Sales Rank,用MWS API 就好。假如用爬虫,切记不要暴力的爬!破解验证码是有风险的,假如破解后还暴力的爬,那下次亚马逊恼羞成怒,可能就换另一种更强的反爬虫机制了,到时可就没得爬咯!


免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签
马士基公布26年Q1财报,营收降至129.70亿美元
马士基(Maersk)公布了截至2026年3月31日的2026年第一季度财报。受全球海运运价下行压力影响,马士基整体营收同比下降;EBITDA与EBIT同比下滑,但物流与服务及港口业务利润率持续提升,马士基维持全年业绩指引不变。
26年越南电子电商市场竞争更激烈,GMV同比增长52%
根据Metric Analytics的数据,2026年前5个月,越南电商平台上的电子产品行业继续保持较快增长,但市场结构和竞争格局正在发生明显变化。2026年前5个月,越南4大电商平台电子产品总交易额(GMV)达到8.15万亿越南盾,同比增长52%,同时销量达到140万件,同比增长42%。
日本二手电商Mercari接入ChatGPT,支持AI搜索商品
日本二手电商平台Mercari宣布,用户可以在ChatGPT对话界面中直接使用Mercari的商品搜索与出品准备功能。
月入500万,宁波老板靠车载冰箱在TikTok赚疯了
又一中国“避暑神器”被疯抢,TikTok美区已卖上千万
TikTok拟在都柏林裁员约300人,调整AI与数据团队
TikTok正在考虑在其位于爱尔兰都柏林的欧洲中心裁减约300个职位,这一调整与TikTok对数据处理和人工智能团队的重组有关。
安克创新赴港上市,挂牌首日即破发
安克创新又敲了一次钟。这一次,地点从深交所换到了港交所。2020年,安克创新登陆深交所创业板,成为跨境电商行业里较早进入A股市场的代表企业。今年6月23日,安克创新启动港交所全球招股;如今,随着H股正式挂牌,这家跨境自主品牌龙头完成了从A股到港股的又一次资本市场跨越。对跨境电商行业来说,安克这次港股上市的看点,不只是多了一个融资平台。更值得拆解的是:一家已经上市的出海品牌,为什么还要奔赴港股?资本市场又为什么愿意继续押注它?AMZ123获悉,7月2日,安克创新正式登陆港交所主板,股份代码00668.HK。此次安克创新H股发行价定为99.32港元/股,较A股价格有所折让。
成本上涨,5月澳洲消费者支出升至396.7亿澳元
澳大利亚统计局最新数据显示,尽管生活成本持续上涨、消费者信心依然疲弱,澳大利亚5月零售支出同比增长5.8%,达到396.7亿澳元。
2026年联盟营销最佳市场(GEO)全解:从选地区到放大收益
在联盟营销里,选对目标市场(GEO)变得比以往更复杂,也更关键。竞争加剧、流量成本上涨、用户习惯持续变化,还只盯着第一梯队国家,早就不是收益最高的玩法了。2026年,真正能赚钱的玩家,都在靠 “精准选市场” 取胜 —— 把合适的地区、匹配的广告形式、高转化的赛道结合起来。如果你想搞懂地域怎么影响最终效果,先重温一下联盟营销里的地域定向基础逻辑。先划重点:东南亚与东亚市场是今年的绝对黑马 —— 数字经济高速增长、用户参与度高、流量规模大,还能稳定放大收益。这篇文章会拆解2026年的优质市场,分析亚洲市场领跑的核心原因,教你怎么按自己的项目选对地区。
亚马逊提高FBM配送标准,准时送达率需达90%
亚马逊将针对美国站和英国站的卖家自发货(FBM)业务推出多项配送政策调整,涉及企业客户配送、订单处理时间以及跨境物流等多个方面。
亚马逊竞品分析:品牌策略调研实操指南
在亚马逊平台的精细化运营体系中,竞品调研是支撑产品开发、品牌定位与运营策略制定的重要依据。其中品牌策略维度的调研,能够帮助卖家跳出单个Listing的竞争视角,从品牌整体层面理解竞品的长期布局逻辑,进而为自身品牌搭建与产品矩阵规划提供可参考的落地路径。本文将从店铺产品布局、品牌视觉与产品矩阵、品牌故事与理念三个层面,系统拆解亚马逊竞品品牌调研的实操方法与分析逻辑,并补充完整的竞品调研四维框架供参考。一、店铺产品布局调研1.1 店铺信息的获取路径开展店铺产品布局调研的第一步,是定位竞品所属的官方店铺。
欧盟小包关税正式生效,一批卖家计划离场!
继美国后,欧盟也给狂奔的跨境直邮小包模式,踩了一脚急刹车。当地时间7月1日,欧盟新关税政策正式生效,针对来自非欧盟国家、申报价值不超过150欧元的进口小额包裹,取消原有的关税豁免,并统一征收3欧元的临时固定关税。尽管欧盟方面称该政策并非针对中国,但从各项数据来看,受其最大冲击仍然是中国跨境卖家。欧盟委员会数据显示,2025年进入欧盟的低价值电商包裹高达58亿件,较2024年同比增长了26%,数量是2022年的四倍以上,其中约90%来自中国,Temu、SHEIN、速卖通等平台凭借极致性价比抢占市场。
亚马逊AWS投资10亿美元,成立AI工程新部门
亚马逊将在其AWS部门内部成立一个全新的业务单元,并投入10亿美元用于建设该团队。该新部门将专注于“前线部署工程师”,这些工程师将直接进入客户企业内部,与客户团队共同工作,以帮助企业更快、更高效地应用人工智能技术。
亚马逊将在波兰新建物流中心,部署超5000台机器人
亚马逊宣布,将于2026年10月在波兰启用第12座物流中心。新中心位于下西里西亚省希维德尼察县多布罗米日,也是该地区首座配备完整Amazon Robotics机器人系统的物流中心。
印尼6大电商监管措施出台,Shopee、TikTok Shop等受影响
从2026年7月1日起,印尼政府正式实施两项新的重要法规,全面改变Shopee、TikTok Shop、Tokopedia、Lazada和Blibli等电商与社交电商平台的运营规则。
国产保暖裤刷屏巴西TikTok,爆款已经卖了90万+
7天爆单超2万!保暖赛道在TikTok巴西彻底火了
TikTok更新AI营销工具Symphony Agent
TikTok更新了AI营销工具Symphony Agent,旨在帮助广告主在更短时间内完成内容创作、创作者匹配以及广告投放,以应对当前营销行业对内容生产速度与规模不断提升的需求。
《中国照明行业出海国别机会洞察报告》PDF下载
近年来,全球对高品质生活和居住环境的重视持续上升,带动了照明行业的快速发展。随着智能家居和绿色节能理念的普及,消费者对照明产品在功能性、美观性和智能化方面提出了更高要求,推动了智能照明,,装饰性灯具等细分市场的不断拓展。
《TikTok Shop 2024-2025欧美宠物类目报告》PDF下载
美国站宠物细分品类销售数量上来看,狗猫护理、狗猫配件、狗猫的家居成交数量最多成交约170万件,而成交量前三的品类最受欢迎是10-30美元的平价产品,但50-100美元的产品成交量也较高,属于量价兑现均高品类,进入此市场卖家可参考。
《2026年印尼画框&装饰画市场调查》PDF下载
在印度尼西亚,绘画与画框艺术完美融合了传统工艺与现代设计,深受家居装饰和纯艺术市场的青睐。当地工匠主打木质画框,而在线平台则提供可定制选项及进口款式,让印尼消费者能轻松选购到兼具传统的味与现代风格的艺术画框。
《2025全球化新品牌洞察报告》PDF下载
2025年,全球贸易体系深度从“一体化”转向“碎片化”,规则碎片化成定局,品牌全球化进入“精准导航”时代。关税壁垒呈“精准化+区域化”,多国差异化政策让单一应对策略失效;碳边境调节机制落地,覆盖行业扩围,企业需付额外碳排放成本。
《2025欧洲市场年中Prime-Day基准数据》PDF下载
本报告分析了欧洲市场零售媒体广告的现状,帮助您评估业绩并了解关键行业趋势。本报告提供了大规模广告数据的总览,包含数万家大中小型规模,不同品类广告主的数据,是业内同类报告中最全面的报告之一。
《美客多趋势报告-巴西站》PDF下载
根据Kantar《Media Reactions 2024》数据,86%的巴西网民使用美客多进行购物、寻找优惠信息或比价。同时,拉美地区每10个人中就有8个在美客多进行搜索,充分体现了电商在该地区的主导地位。
《TikTok Shop 墨西哥市场分析报告》PDF下载
在全球社交电商高速发展的时代浪潮中,TikTok已然崛起为品牌与消费者深度互动的重要阵地。TikTok不仅重塑了用户的消费习惯,更开创了"发现式购物"的新模式,为品牌营销带来了前所未有的机遇与挑战。
《2026全球AI眼镜行业战略洞察报告》PDF下载
过去三年,全球 AI 眼镜市场经历了爆发式增长:出货量从 2023 年的 34 万台激增至2025 年的 870 万台,三年增长超过 25 倍。2026 年,这一数字有望突破 1000 万台。苹果、谷歌、三星等科技巨头纷纷入局,资本市场反应同样迅猛。
欧洲电商资讯
AMZ123旗下欧洲跨境电商新闻栏目,专注欧洲跨境电商热点资讯,为广大卖家提供欧洲跨境电商最新动态、最热新闻。
亚马逊资讯
AMZ123旗下亚马逊资讯发布平台,专注亚马逊全球热点事件,为广大卖家提供亚马逊最新动态、最热新闻。
AMZ123选品观察员
选品推荐及选品技巧分享。
亚马逊公告
AMZ123旗下亚马逊公告发布平台,实时更新亚马逊最新公告,致力打造最及时和有态度的亚马逊公告栏目!
AMZ123会员
「AMZ123会员」为出海者推出的一站式私享服务
AMZ123跨境电商
专注跨境行业热点事件报道,每日坚持推送原创深度热文
跨境科普达人
科普各种跨境小知识,科普那些你不知道的事...
跨境电商干货集结
跨境电商干货集结,是结合亚马逊跨境电商卖家交流群内大家在交流过程中最常遇到的问题,进行收集整理,汇总解答,将会持续更新大家当前最常遇见的问题。欢迎大家加入跨境电商干货集结卖家交流群一起探讨。
首页
跨境头条
文章详情
咨询
官方微信群
官方客服

扫码添加,立即咨询

加群
官方微信群
官方微信群

扫码添加,拉你进群

更多
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯

回顶部