AMZ123跨境卖家导航
拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条文章详情

亚马逊反爬,看这一篇就够了!

51981
2018-11-06 19:27
2018-11-06 19:27
51981

有人的地方就有江湖,在爬虫的世界里也是一样。很多新手同学的爬虫简单粗暴,不管对端服务器的压力,直接多线程、多进程爬虫疯狂搞事。


服务器端

你要搞事是吧?我就不让你搞事!

爬虫

你不让我搞事是吧?我偏要搞事!



于是就有了反爬虫,有反爬虫就有反反爬虫,有反反爬虫就有反反反爬虫…


在看了前几期文章后有很多小伙伴已经能自己敲出指哪儿爬哪儿的爬虫了,却被亚马逊的反爬虫所困扰。爬着爬着弹个验证码、不返回正常数据,咋整?

所谓道高一尺魔高一丈,下面将为大家列举亚马逊的几种反爬手段及解决办法!



一、通过headers字段来反爬


Headers是什么?

首先要说明一下HTTP是“Hypertext Transfer Protocol”的所写,整个万维网都在使用这种协议,几乎你在浏览器里看到的大部分内容都是通过http协议来传输的, 而Headers是HTTP请求和相应的核心,它承载了关于客户端浏览器,请求页面,服务器等相关的信息。


下图就是访问https://www.amazon.com/时的Request Headers:



其中包含了authority、cookie、user-agent等字段。


1、通过User-Agent字段来反爬

User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。


标准格式为: 浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识 版本信息。


大多数网站都会在后台的根目录下放置一个名为“robots.txt”的文件,在这个文件中规定了某些特定的User-Agent哪些页面可以访问,哪些页面不可以访问。如亚马逊美国站的“robots.txt”地址为:https://www.amazon.com/robots.txt,大家可以访问看一看。robots.txt一般称为robots协议,可以说是一个君子协议,遵不遵守还看个人。我们可以考虑收集一堆User-Agent的方式,或者是随机生成User-Agent,达到伪造User-Agent的目的,即可解决这种反爬手段。


2、 通过referer字段或者是其他字段来反爬

Referer记录了你是从什么网站跳转到该网站的。比如通过Google搜索到Amazon.com,再点击跳转,那么本次请求中的headers中就会包含Referer:http://www.google.com,表示你从谷歌跳转而来。通过referer字段反爬,一般在针对图片、视频、音频资源时出现较多,当你访问这些资源时,服务端检查你的referer字段非正常便会给你返回一些假资源,如我们早年玩儿的QQ空间、天涯社区针对图片资源反爬出现的“盗链图片”



通过referer字段反爬,我们也可以在headers中伪造referer字段来解决。


3、 通过cookie来反爬

Cookie是网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据。如果目标网站不需要登录,每次请求带上前一次返回的cookie,比如requests模块的session,即可达到反爬目的。


如访问亚马逊美国站中ASIN为:XXX的商品,每次都带上不同的cookie,代码如下:


import requests

headers = {
   
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',
   
'Referer': "www.google.com"
}
session = requests.session()
# 先访问亚马逊主界面拿到cookies,保持会话。
session.get(
'https://www.amazon.com', headers=headers)


如果目标网站需要登录的话则准备多个账号,通过一个程序获取账号对应的cookie,组成cookie池,其他程序使用这些cookie即可访问到登陆后的页面。

 

 

 

二、通过验证码来反爬


上一次prime day亚马逊全站都开启验证码,那种寸步难行的感觉不知大家还记不记得?通过验证码来反爬是大多数网站通用的一种反爬手段,比较出名的有12306、google人机测试、极验滑块等。在这些验证码面前,亚马逊验证码还是显得很照顾用户体验的,至少没弹出什么奇奇怪怪的东西让我们点选,只是单纯的4-6位字母,那么要识别它还是挺Easy的!


Python通过获取大量的验证码图片素材,使用OCR、PIL、SVM等库进行验证码图片的二值化、切割、模型训练,最终可实现对亚马逊验证码的识别。


自己用Python识别这么多步骤、

这么多东西,搞起来是不是很难?

难!肯定是要花点儿时间的!

那咋整?



有一种东西“打码平台”!把验证码图片上传给他,在规定时间内(一般60S内)就会返回识别后的验证码。


下面是某打码平台的价格表:



该打码平台的充值比例为1元=2500快豆,如果我们选择6位纯字母模式识别的话,1块钱就可以识别166.66次…是不是超便宜?


各个打码平台的使用方法不一,这里就不贴代码了。选定一家打码平台,联系客服或者查看开发者文档demo,轻轻松松就能通过代码的形式搞定亚马逊验证码。


当然,有实力、有兴趣的同学还是建议自己弄验证码识别,毕竟是一劳永逸的事情。



三、通过ip地址来反爬


同一个ip大量请求了对方服务器,有更大的可能性会被识别为爬虫,ip就有可能被暂时拉进小黑屋。咋办?


别怕!用代理ip,完美解决这种反爬手段。


什么是代理ip?就好似你找了一个代理人,让他去访问你的目标网站,然后跟他要目标网站给他的数据


如图:


根据代理ip的匿名程度,代理ip可以分为下面四类:


  • 透明代理(Transparent Proxy)Transparent Proxy):透明代理虽然可以直接“隐藏”你的IP地址,但是还是可以查到你是谁。

  • 匿名代理(Anonymous Proxy):匿名代理比透明代理进步了一点:别人只能知道你用了代理,无法知道你是谁。


  • 混淆代理(Distorting Proxies):与匿名代理相同,如果使用了混淆代理,别人还是能知道你在用代理,但是会得到一个假的IP地址,伪装的更逼真


  • 高匿代理(Elite proxy或High Anonymity Proxy):可以看出来,高匿代理让别人根本无法发现你是在用代理,所以是最好的选择。


在使用的使用,毫无疑问使用高匿代理效果最好


从使用的协议:代理ip可以分为http代理,https代理,socket代理等,使用的时候需要根据抓取网站的协议来选择


在Python的requests库中,也早已设计了使用代理IP的方法:

import requests
proxies = {
 
"http": "http://10.10.1.10:3128",
 
"https": "http://10.10.1.10:1080",
}
requests.get(
"http://httpbin.org/ip", proxies=proxies)



四、通过前端样式反爬

上面是亚马逊搜索页面翻页的两种前端样式,估计一般人都不会注意这里有什么变化。两种前端的代码也有所不同,如果你的爬虫只针对其中一种页面获取下一页的url,就会导致你的爬虫在遇到另外一种翻页样式时挂掉。


这也正是亚马逊的高明之处,与国内电商相比,它在照顾用户体验的同时,也达到了反爬的目的。针对这种情况我们需要在爬虫里首先判断当前页面是哪种前端样式(多写两个if…else),这样才能兼容两种样式。


以上就是本人在编写亚马逊爬虫中遇到的反爬手段,希望能对大家有一些帮助!


最后希望大家且爬且珍惜,假如只要单纯商品的详情、报价和Sales Rank,用MWS API 就好。假如用爬虫,切记不要暴力的爬!破解验证码是有风险的,假如破解后还暴力的爬,那下次亚马逊恼羞成怒,可能就换另一种更强的反爬虫机制了,到时可就没得爬咯!


免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签
一批卖家用AI跑通独立站,首月GMV破万
上线首月GMV破万,一批卖家用AI做独立站
印度电商平台Flipkart暂停IPO计划
知情人士表示,印度资本市场波动加剧,以及大量大型IPO项目集中排队,沃尔玛旗下印度电商平台Flipkart已无限期暂停首次公开募股(IPO)计划。
印尼拟出台新规:电商平台调整佣金需提前3个月通知
印尼政府正在制定相关规定,要求电商平台与卖家签署至少一年期限的费用合作协议。在合同有效期内,平台不得单方面提高佣金或服务费用。如确需调整,平台必须提前至少3个月通知卖家。
全球电商网站Top10公布:Temu全球访问量第二
根据We Are Social发布的2025年12月至2026年2月全球电商网站流量数据,Temu已成为全球访问量第二高的电商网站,仅次于亚马逊。
26年7月起,尺码不规范的商品或被eBay下架
eBay公布了多项平台规则与功能更新,涉及服饰尺码标准化、年龄验证配送服务、广告推广工具以及“议价购买”机制调整等多个领域,进一步加强平台规范化运营,并提升买卖双方交易效率。
深圳卖家靠一台“宠物友好”家电,在TikTok捞金千万
28天卖了550万,宠物“吸毛神器”在TikTok美区爆单
货代巨头DSV与知名卡车联合,开启无人驾驶货运业务
自动驾驶卡车,正在从测试场景逐步进入真实物流网络。沃尔沃自动驾驶解决方案公司(Volvo Autonomous Solutions,VAS)与全球货代物流巨头DSV,已正式在美国得州启动自动驾驶干线货运运营,首条商业化线路落地达拉斯—休斯敦走廊。这不仅意味着自动驾驶重卡开始进入实际运输环节,也反映出全球物流行业正加速探索“24小时连续运营”的新型运输模式。此次投入运营的车型为Volvo VNL Autonomous自动驾驶重卡,车辆从底层架构开始即针对自动驾驶场景开发,并集成Aurora自动驾驶系统。
【26-cv-5510】幻 / 太空艺术版权批量起诉!Tobias Roetsch 12 幅版权画 Keith 律所维权,装饰画 / 家居 / 文创卖家紧急自查。
2026 年 5 月 13 日,德国知名科幻数字艺术家 Tobias Roetsch 委托 Keith律所提起版权侵权 TRO 诉讼,针对跨境平台未经授权使用其12幅科幻、太空、宇宙、风景主题艺术作品 的侵权行为发起大规模维权。
深圳卖家靠一台“宠物友好”家电,在TikTok捞金千万
28天卖了550万,宠物“吸毛神器”在TikTok美区爆单
全球电商网站Top10公布:Temu全球访问量第二
根据We Are Social发布的2025年12月至2026年2月全球电商网站流量数据,Temu已成为全球访问量第二高的电商网站,仅次于亚马逊。
26年7月起,尺码不规范的商品或被eBay下架
eBay公布了多项平台规则与功能更新,涉及服饰尺码标准化、年龄验证配送服务、广告推广工具以及“议价购买”机制调整等多个领域,进一步加强平台规范化运营,并提升买卖双方交易效率。
【26-cv-5510】幻 / 太空艺术版权批量起诉!Tobias Roetsch 12 幅版权画 Keith 律所维权,装饰画 / 家居 / 文创卖家紧急自查。
2026 年 5 月 13 日,德国知名科幻数字艺术家 Tobias Roetsch 委托 Keith律所提起版权侵权 TRO 诉讼,针对跨境平台未经授权使用其12幅科幻、太空、宇宙、风景主题艺术作品 的侵权行为发起大规模维权。
一批卖家用AI跑通独立站,首月GMV破万
上线首月GMV破万,一批卖家用AI做独立站
货代操作流程 整箱货(非危险品)海运出口流程
整箱货(非危险品)海运出口流程(仅供参考)整箱货(非危险品)海运出口流程大概流程如下:揽货→询价→订舱→接受托运申请→订舱确认→排载→发放空箱→装箱→进场→边检→申报→报检→报关→配载(装船计划)→审提单→船东确认费用→预借购付汇联→缴交一切费用→签单→向货主催款→货主确认并支付钱款→开具商业发票→放单/做电放/做SEAWAYBILL(一)揽货→询价→订舱→接受托运申请→订舱确认一、业务员揽货,接受货主询价揽货期间应向询价货主问明一些类别信息,如:1、 发货人2、 收货人 3、 通知人 4、 品名(中英文)5、 目的港、中转港6、 柜型柜量,超重柜特殊说明(如为特种柜,则需详细的货物尺寸,长*宽*高,毛重,体积等
印尼拟出台新规:电商平台调整佣金需提前3个月通知
印尼政府正在制定相关规定,要求电商平台与卖家签署至少一年期限的费用合作协议。在合同有效期内,平台不得单方面提高佣金或服务费用。如确需调整,平台必须提前至少3个月通知卖家。
《美客多墨西哥市场趋势洞察》PDF下载
美客多远不止是一个电商平台。这里映射着数百万墨西哥消费者的潮流趋势、喜好变化和日常消费选择。
《美客多巴西市场趋势报告》PDF下载
美客多远不止是一个电商平台。这里映射着数百万巴西消费者的潮流趋势、喜好变化和日常消费选择。
《TikTok Shop2024家居类报告东南亚》PDF下载
从各品类占比来看,越南市场GMV相对集中,GMV前五的品类已经接近80%,其中家居用品占比仅为TOP10品类的4%,家居品类在越南站点仍有很大的发展及进步空间。
《Temu商业模式迭代,应对监管挑战,持续高增长》PDF下载
Temu 持续高增长,全球跨境电商重要平台。Temu 自 2022 年上线以来飞速发展,依托供应链优势、全托管模 式以及广告投放帮助其取得了商业模式的巨大成功。从用户数和份额角度,Temu 都已成为全球最重要的跨境 电商平台之一。
《2025中国医疗器械出海现状与趋势蓝皮书》PDF下载
医疗器械出海不仅是企业拓展市场的战略选择,更是提升全球医疗水平、增进人类健康福祉的重要使命。然 而,这一过程充满挑战:不同国家和地区的法规标准、市场准入、文化差异以及技术要求,都对企业提出了 严峻考验。如何在复杂的国际环境中找到方向,实现从产品输出到品牌信任,是每一家出海企业必须面对的 核心问题。
AMZ123《全球电商市场报告——韩国篇》PDF下载
本报告从电商市场环境、消费者画像与营销选品策略等多个维度,聚焦这一市场进行系统性解读,为跨境卖家精准切入韩国市场,把握增量机遇提 供深度参考。
《TikTok Shop 2026年一季度报告》PDF下载
2026年第一季度,TikTok Shop在全球(基于所提供的10个站点数据)继续保持强劲的增长态势总GMV已达274.53亿美元,整体市场呈现出核心市场GMV体量巨大、新兴市场爆发式增长的特征美国站以69.85亿美元的GMV稳居榜首,对比25年第一季度增长了66%
《2026游戏出海产业深度解析报告》PDF下载
2025年,全球游戏市场彻底走出了调整期,迎来了确定性的复苏增长。根据Newzoo最新发布的全球营收趋势数据显示,2025年全球游戏市场总营收预计将达到1967亿美元,正式逼近2000亿大关。从长期增长曲线来看,行业复合年增长率(CAGR)正从2022-2025年间的4.2%加速攀升,预计在2025-2028年间将达到4.9%,显示出强劲的市场韧性。
跨境科普达人
科普各种跨境小知识,科普那些你不知道的事...
亚马逊资讯
AMZ123旗下亚马逊资讯发布平台,专注亚马逊全球热点事件,为广大卖家提供亚马逊最新动态、最热新闻。
欧洲电商资讯
AMZ123旗下欧洲跨境电商新闻栏目,专注欧洲跨境电商热点资讯,为广大卖家提供欧洲跨境电商最新动态、最热新闻。
亿邦动力网
消除一切电商知识鸿沟,每日发布独家重磅新闻。
跨境电商干货集结
跨境电商干货集结,是结合亚马逊跨境电商卖家交流群内大家在交流过程中最常遇到的问题,进行收集整理,汇总解答,将会持续更新大家当前最常遇见的问题。欢迎大家加入跨境电商干货集结卖家交流群一起探讨。
北美电商资讯
AMZ123旗下北美跨境电商新闻栏目,专注北美跨境电商热点资讯,为广大卖家提供北美跨境电商最新动态、最热新闻。
跨境数据中心
聚合海量跨境数据,输出跨境研究智慧。
AMZ123会员
「AMZ123会员」为出海者推出的一站式私享服务
首页
跨境头条
文章详情
咨询
官方微信群
官方客服

扫码添加,立即咨询

加群
官方微信群
官方微信群

扫码添加,拉你进群

更多
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯

回顶部