AMZ123跨境卖家导航
拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条文章详情

亚马逊反爬,看这一篇就够了!

43002
2018-11-06 19:27
2018-11-06 19:27
43002

有人的地方就有江湖,在爬虫的世界里也是一样。很多新手同学的爬虫简单粗暴,不管对端服务器的压力,直接多线程、多进程爬虫疯狂搞事。


服务器端

你要搞事是吧?我就不让你搞事!

爬虫

你不让我搞事是吧?我偏要搞事!



于是就有了反爬虫,有反爬虫就有反反爬虫,有反反爬虫就有反反反爬虫…


在看了前几期文章后有很多小伙伴已经能自己敲出指哪儿爬哪儿的爬虫了,却被亚马逊的反爬虫所困扰。爬着爬着弹个验证码、不返回正常数据,咋整?

所谓道高一尺魔高一丈,下面将为大家列举亚马逊的几种反爬手段及解决办法!



一、通过headers字段来反爬


Headers是什么?

首先要说明一下HTTP是“Hypertext Transfer Protocol”的所写,整个万维网都在使用这种协议,几乎你在浏览器里看到的大部分内容都是通过http协议来传输的, 而Headers是HTTP请求和相应的核心,它承载了关于客户端浏览器,请求页面,服务器等相关的信息。


下图就是访问https://www.amazon.com/时的Request Headers:



其中包含了authority、cookie、user-agent等字段。


1、通过User-Agent字段来反爬

User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。


标准格式为: 浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识 版本信息。


大多数网站都会在后台的根目录下放置一个名为“robots.txt”的文件,在这个文件中规定了某些特定的User-Agent哪些页面可以访问,哪些页面不可以访问。如亚马逊美国站的“robots.txt”地址为:https://www.amazon.com/robots.txt,大家可以访问看一看。robots.txt一般称为robots协议,可以说是一个君子协议,遵不遵守还看个人。我们可以考虑收集一堆User-Agent的方式,或者是随机生成User-Agent,达到伪造User-Agent的目的,即可解决这种反爬手段。


2、 通过referer字段或者是其他字段来反爬

Referer记录了你是从什么网站跳转到该网站的。比如通过Google搜索到Amazon.com,再点击跳转,那么本次请求中的headers中就会包含Referer:http://www.google.com,表示你从谷歌跳转而来。通过referer字段反爬,一般在针对图片、视频、音频资源时出现较多,当你访问这些资源时,服务端检查你的referer字段非正常便会给你返回一些假资源,如我们早年玩儿的QQ空间、天涯社区针对图片资源反爬出现的“盗链图片”



通过referer字段反爬,我们也可以在headers中伪造referer字段来解决。


3、 通过cookie来反爬

Cookie是网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据。如果目标网站不需要登录,每次请求带上前一次返回的cookie,比如requests模块的session,即可达到反爬目的。


如访问亚马逊美国站中ASIN为:XXX的商品,每次都带上不同的cookie,代码如下:


import requests

headers = {
   
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',
   
'Referer': "www.google.com"
}
session = requests.session()
# 先访问亚马逊主界面拿到cookies,保持会话。
session.get(
'https://www.amazon.com', headers=headers)


如果目标网站需要登录的话则准备多个账号,通过一个程序获取账号对应的cookie,组成cookie池,其他程序使用这些cookie即可访问到登陆后的页面。

 

 

 

二、通过验证码来反爬


上一次prime day亚马逊全站都开启验证码,那种寸步难行的感觉不知大家还记不记得?通过验证码来反爬是大多数网站通用的一种反爬手段,比较出名的有12306、google人机测试、极验滑块等。在这些验证码面前,亚马逊验证码还是显得很照顾用户体验的,至少没弹出什么奇奇怪怪的东西让我们点选,只是单纯的4-6位字母,那么要识别它还是挺Easy的!


Python通过获取大量的验证码图片素材,使用OCR、PIL、SVM等库进行验证码图片的二值化、切割、模型训练,最终可实现对亚马逊验证码的识别。


自己用Python识别这么多步骤、

这么多东西,搞起来是不是很难?

难!肯定是要花点儿时间的!

那咋整?



有一种东西“打码平台”!把验证码图片上传给他,在规定时间内(一般60S内)就会返回识别后的验证码。


下面是某打码平台的价格表:



该打码平台的充值比例为1元=2500快豆,如果我们选择6位纯字母模式识别的话,1块钱就可以识别166.66次…是不是超便宜?


各个打码平台的使用方法不一,这里就不贴代码了。选定一家打码平台,联系客服或者查看开发者文档demo,轻轻松松就能通过代码的形式搞定亚马逊验证码。


当然,有实力、有兴趣的同学还是建议自己弄验证码识别,毕竟是一劳永逸的事情。



三、通过ip地址来反爬


同一个ip大量请求了对方服务器,有更大的可能性会被识别为爬虫,ip就有可能被暂时拉进小黑屋。咋办?


别怕!用代理ip,完美解决这种反爬手段。


什么是代理ip?就好似你找了一个代理人,让他去访问你的目标网站,然后跟他要目标网站给他的数据


如图:


根据代理ip的匿名程度,代理ip可以分为下面四类:


  • 透明代理(Transparent Proxy)Transparent Proxy):透明代理虽然可以直接“隐藏”你的IP地址,但是还是可以查到你是谁。

  • 匿名代理(Anonymous Proxy):匿名代理比透明代理进步了一点:别人只能知道你用了代理,无法知道你是谁。


  • 混淆代理(Distorting Proxies):与匿名代理相同,如果使用了混淆代理,别人还是能知道你在用代理,但是会得到一个假的IP地址,伪装的更逼真


  • 高匿代理(Elite proxy或High Anonymity Proxy):可以看出来,高匿代理让别人根本无法发现你是在用代理,所以是最好的选择。


在使用的使用,毫无疑问使用高匿代理效果最好


从使用的协议:代理ip可以分为http代理,https代理,socket代理等,使用的时候需要根据抓取网站的协议来选择


在Python的requests库中,也早已设计了使用代理IP的方法:

import requests
proxies = {
 
"http": "http://10.10.1.10:3128",
 
"https": "http://10.10.1.10:1080",
}
requests.get(
"http://httpbin.org/ip", proxies=proxies)



四、通过前端样式反爬

上面是亚马逊搜索页面翻页的两种前端样式,估计一般人都不会注意这里有什么变化。两种前端的代码也有所不同,如果你的爬虫只针对其中一种页面获取下一页的url,就会导致你的爬虫在遇到另外一种翻页样式时挂掉。


这也正是亚马逊的高明之处,与国内电商相比,它在照顾用户体验的同时,也达到了反爬的目的。针对这种情况我们需要在爬虫里首先判断当前页面是哪种前端样式(多写两个if…else),这样才能兼容两种样式。


以上就是本人在编写亚马逊爬虫中遇到的反爬手段,希望能对大家有一些帮助!


最后希望大家且爬且珍惜,假如只要单纯商品的详情、报价和Sales Rank,用MWS API 就好。假如用爬虫,切记不要暴力的爬!破解验证码是有风险的,假如破解后还暴力的爬,那下次亚马逊恼羞成怒,可能就换另一种更强的反爬虫机制了,到时可就没得爬咯!


免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签
2025澳洲电商报告:980万家庭网购,年轻消费者支出创新高
AMZ123获悉,近日,澳大利亚邮政发布了《2025年澳洲电商报告》,详细分析了2024年澳大利亚电商市场的整体表现与发展趋势。重点探讨了促销节日对销售节奏的影响、消费者的购物偏好、社交电商、二手电商,以及环保理念在电商中的兴起。一、2024年澳大利亚电商总体概况1. 线上消费总额创新高,电商平台增长加速2024年,澳大利亚电商市场在生活成本上升与人口增长的双重推动下迎来显著增长。全国980万个家庭的在线消费总额突破689亿澳元,同比增长12%,创下历史新高。电商支出占零售总额的比例也进一步扩大,位于17.7%至22.3%区间,表明线上购物在整体零售中的比重持续提升。
2025印尼电商满意度报告:Shopee赢得最多卖家支持
AMZ123获悉,近日,根据《Ipsos 2025年电商卖家满意度调查》,当前印尼电商市场的竞争焦点,正从单纯争夺市场份额,转向对本地中小微企业(UMKM)和本地品牌的支持与赋能。此次调研旨在评估电商平台在卖家心中的认知度、使用频率与忠诚度。调查结果显示,Shopee在“心中首选平台”(Top of Mind)中获得66%的支持率,在“最常使用平台”(Brand Used Most Often)中得票率高达70%,均遥遥领先其他平台,获得多数本地中小微企业和品牌的青睐,成为被广泛认为最具影响力、最值得信赖的电商平台。
欧盟拟取消150欧元免税,TikTok卖家:狼又来了?
走美国“老路”的欧盟,正在为TikTok卖家扫清竞对
Trendyol罗马尼亚活跃卖家数破千,88%为中小企业
AMZ123获悉,近日,据外媒报道,土耳其电商平台Trendyol在罗马尼亚上线本地卖家入驻流程仅六个月后,平台上的活跃罗马尼亚卖数量已突破1000家,其中88%为中小企业。Trendyol于2024年12月正式启动本地卖家招募,入驻速度迅猛,仅2025年5月一个月内就有超过500家本地商户加入。Trendyol表示,平台致力于为本地卖家提供技术支持、物流基础设施、市场推广工具及销售分析等综合服务,助力其在国内外市场实现可持续增长。目前,罗马尼亚卖家在Trendyol上的热门品类主要包括时尚(41%)、家居(25%)、快速消费品(14%)、化妆品(11%)及电子产品(5%)。
白鲸国际正式成为速卖通官方认证服务商
2025年7月,白鲸国际正式获得全球跨境电商平台速卖通(AliExpress)官方认证,成为其服务市场核心服务商。这一里程碑式的合作,标志着白鲸国际在跨境贸易服务领域的专业能力与行业影响力获得国际平台的高度认可,也为全球商家提供了更高效、更精准的出海解决方案。权威认证,彰显实力作为阿里巴巴集团旗下的全球零售平台,速卖通服务市场始终致力于为商家提供一站式解决方案。而白鲸国际凭借覆盖欧洲、北美、东南亚等核心市场的服务网络,以及智能化的SaaS管理系统,已成功助力数十万卖家 品牌出海。成为速卖通官方服务商,是我们深耕跨境电商领域的重要里程碑。
亚马逊推出三大AI黑科技
2025年7月18日,亚马逊发布三项人工智能创新,全面嵌入仓储与配送环节:Wellspring生成式地图:整合卫星图、街景、历史配送记录及客户手写备注,为每一栋住宅、公寓、农场生成厘米级“数字孪生”,驾驶员App实时导航,农村复杂小路首次实现“零误投”。AI需求预测2.0:在传统销售历史基础上叠加天气、节假日、体育赛事等1400+变量,预测颗粒度从天级缩短到小时级,让爆款提前下沉至离消费者最近的前置仓,库存周转天数再降0.8天。自然语言机器人军团:基于视觉-语言大模型(VLM),员工可用口语指令如“把下一批狗玩具移到B3货架”,机器人即可完成识别、抓取、搬运;未来6个月将在美国新增2000台,拣货效率提升25%。
25上半年俄罗斯电商增长39%,家电、数码品类表现抢眼
AMZ123获悉,近日,据外媒报道,2025年上半年,俄罗斯电商市场继续呈现强劲增长态势,俄罗斯本土品牌在电子产品和家用电器领域的竞争力显著提升。在宏观背景下,俄罗斯电商市场的整体发展势头亦十分强劲。2024年市场总规模达11.3万亿卢布,同比增长37%。2025年前五个月,线上零售额达4.4万亿卢布,同比增长39%,第一季度交易总额突破2.6万亿卢布,创下历史新高。预计2025全年电商总规模将达到14.9万亿卢布,年增长率为32%,远超多数成熟市场增速。食品、珠宝、数码产品为主要增长品类,药品、家居、汽车零件等也表现抢眼。
亚马逊“千镇次日达”计划正式启动,美国4000+小城镇迎来当日/次日达
2025年7月18日,亚马逊正式公布覆盖全美小城镇与农村地区的超大规模物流扩张方案,彻底改写美国小城镇与农村地区的电商体验。这一计划不仅标志着亚马逊首次将当日达与次日达服务延伸至最偏远角落,更是一次对“数字鸿沟”发起的正面冲锋。2025年12月31日前,佛罗里达州米尔顿镇(人口9,600)、阿拉斯加北极村(人口仅150)、得克萨斯州马拉松镇以及蒙大拿州弗塞斯镇等4000余个此前从未享受过Prime极速服务的邮政编码区,将首次迎来“上午下单、下午收货”的物流奇迹。
2025印尼电商满意度报告:Shopee赢得最多卖家支持
AMZ123获悉,近日,根据《Ipsos 2025年电商卖家满意度调查》,当前印尼电商市场的竞争焦点,正从单纯争夺市场份额,转向对本地中小微企业(UMKM)和本地品牌的支持与赋能。此次调研旨在评估电商平台在卖家心中的认知度、使用频率与忠诚度。调查结果显示,Shopee在“心中首选平台”(Top of Mind)中获得66%的支持率,在“最常使用平台”(Brand Used Most Often)中得票率高达70%,均遥遥领先其他平台,获得多数本地中小微企业和品牌的青睐,成为被广泛认为最具影响力、最值得信赖的电商平台。
2025澳洲电商报告:980万家庭网购,年轻消费者支出创新高
AMZ123获悉,近日,澳大利亚邮政发布了《2025年澳洲电商报告》,详细分析了2024年澳大利亚电商市场的整体表现与发展趋势。重点探讨了促销节日对销售节奏的影响、消费者的购物偏好、社交电商、二手电商,以及环保理念在电商中的兴起。一、2024年澳大利亚电商总体概况1. 线上消费总额创新高,电商平台增长加速2024年,澳大利亚电商市场在生活成本上升与人口增长的双重推动下迎来显著增长。全国980万个家庭的在线消费总额突破689亿澳元,同比增长12%,创下历史新高。电商支出占零售总额的比例也进一步扩大,位于17.7%至22.3%区间,表明线上购物在整体零售中的比重持续提升。
欧盟拟取消150欧元免税,TikTok卖家:狼又来了?
走美国“老路”的欧盟,正在为TikTok卖家扫清竞对
《2025全球电商消费趋势及选品洞察报告》PDF下载
为了让企业精准把握市场动向、真正了解消费者的需求,亚马逊全新发布2025全球十大消费趋势报告,有助于企业在新的未来发掘更多潜在消费需求,促进产品创新。
《2025亚马逊全球开店时尚品类电商选品洞察报告》PDF下载
根据权威机构Statista的报告,全球时尚产业体量大、增速稳,从2021年到2029年间将实现3.4%的年复合增长率,预计将于2029年达到3.4万亿美金的年销售规模。同时服装和鞋类产业在未来仍会保持一定的稳定增速。
《2025年中国品牌全球影响力报告》PDF下载
自2020/21年开始跟踪和排名中国品牌以来,在全球舞台上,中国品牌的增长大大加快。我们的数据显示,在社交渠道、电商平台和官方网站的流量、关注者数量和互动方面均取得了显著增长。
《2024中国塑料及相关行业海外拓展现状与趋势分析报告》PDF下载
“出海”不仅为中国企业打开了更广阔的市场空间,有效缓解国内市场内卷带来的压力,更是企业提升品牌国际影响力、塑造卓越品牌形象的关键举措·通过多元化市场布局,企业能够更好地应对单一市场波动带来的挑战,确保业务的稳定与持续增长。
《2024年3C消费电子出海解决方案白皮书》PDF下载
3C 消费电子全球市场分布呈现出成熟市场如北美、欧洲等地区消费规模大、需求稳定且注重产品体验与创新,而高潜市场如中东、东南亚、拉美等地区则增长迅速、潜力巨大,正逐步成为行业新的增长点。
《中国企业在欧盟发展报告(2024-2025)》PDF下载
欧洲对于中国企业而言具有十分重要的战略意义,中国企业在德国、匈牙利、西班牙等地设立了大量的研发中心、设计中心、数据中心、安全设施和生产基地,在为欧盟贡献税收、投资和就业机会的同时,也在产业升级、技术革新和可持续发展方面发挥着积极作用。这些项目的落地,使双方经贸合作达到了前所未有的高度,也助力中欧关系长远发展。
《2025年中国对外贸易潜力产品分析报告》PDF下载
贸易潜力产品指一国对外贸易中具有潜在贸易优势和发展空间的产品,贸易潜力产品包括的范畴有很多,既包括国内生产技术已经成熟但海外市场尚未完全开发的产品,也包括国内技术趋于成熟但尚未达到出口阶段的产品。
《2026春夏女鞋色彩趋势预测》PDF下载
随着消费者将目光转向百搭、耐看、治愈的色彩,深色仍然至关重要。值得注意的是,社媒对于色彩中性色的趋势愈发强烈。在此趋势下,受创新混搭文化启发彩色中性色势必会日益流行。基调色目前任是市场主流,如沙色、浆果红、南瓜布丁,既可保持配色创新,又承载着基础人群需求。
AMZ123跨境电商
专注跨境行业热点事件报道,每日坚持推送原创深度热文
跨境科普达人
科普各种跨境小知识,科普那些你不知道的事...
跨境学院
跨境电商大小事,尽在跨境学院。
亚马逊资讯
AMZ123旗下亚马逊资讯发布平台,专注亚马逊全球热点事件,为广大卖家提供亚马逊最新动态、最热新闻。
跨境数据中心
聚合海量跨境数据,输出跨境研究智慧。
AMZ123卖家导航
这个人很懒,还没有自我介绍
AMZ123选品观察员
选品推荐及选品技巧分享。
亚马逊全球开店
亚马逊全球开店官方公众号,致力于为中国跨境卖家提供最新,最全亚马逊全球开店资讯,运营干货分享及开店支持。
首页
跨境头条
文章详情
热门活动
跨境资讯
跨境资讯
跨境早报
跨境社群
品类交流群
宠物品类交流群宠物品类交流群
加入
宠物品类交流群
扫码进群
家居品类交流群家居品类交流群
加入
家居品类交流群
扫码进群
母婴用品交流群母婴用品交流群
加入
母婴用品交流群
扫码进群
品类交流群
加入
跨境资料
亚马逊运营干货包亚马逊运营干货包
加入
亚马逊运营干货包
扫码进群
TikTok运营干货包TikTok运营干货包
加入
TikTok运营干货包
扫码进群
跨境电商行业报告跨境电商行业报告
加入
跨境电商行业报告
扫码进群
跨境资料
加入
官方社区
跨境电商交流群跨境电商交流群
加入
跨境电商交流群
扫码进群
亚马逊卖家交流群亚马逊卖家交流群
加入
亚马逊卖家交流群
扫码进群
独立站卖家交流群独立站卖家交流群
加入
独立站卖家交流群
扫码进群
官方社区
加入
立即扫码咨询
立即扫码咨询
亚马逊反爬,看这一篇就够了!
黑五电商
2018-11-06 19:27
43002

有人的地方就有江湖,在爬虫的世界里也是一样。很多新手同学的爬虫简单粗暴,不管对端服务器的压力,直接多线程、多进程爬虫疯狂搞事。


服务器端

你要搞事是吧?我就不让你搞事!

爬虫

你不让我搞事是吧?我偏要搞事!



于是就有了反爬虫,有反爬虫就有反反爬虫,有反反爬虫就有反反反爬虫…


在看了前几期文章后有很多小伙伴已经能自己敲出指哪儿爬哪儿的爬虫了,却被亚马逊的反爬虫所困扰。爬着爬着弹个验证码、不返回正常数据,咋整?

所谓道高一尺魔高一丈,下面将为大家列举亚马逊的几种反爬手段及解决办法!



一、通过headers字段来反爬


Headers是什么?

首先要说明一下HTTP是“Hypertext Transfer Protocol”的所写,整个万维网都在使用这种协议,几乎你在浏览器里看到的大部分内容都是通过http协议来传输的, 而Headers是HTTP请求和相应的核心,它承载了关于客户端浏览器,请求页面,服务器等相关的信息。


下图就是访问https://www.amazon.com/时的Request Headers:



其中包含了authority、cookie、user-agent等字段。


1、通过User-Agent字段来反爬

User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。


标准格式为: 浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识 版本信息。


大多数网站都会在后台的根目录下放置一个名为“robots.txt”的文件,在这个文件中规定了某些特定的User-Agent哪些页面可以访问,哪些页面不可以访问。如亚马逊美国站的“robots.txt”地址为:https://www.amazon.com/robots.txt,大家可以访问看一看。robots.txt一般称为robots协议,可以说是一个君子协议,遵不遵守还看个人。我们可以考虑收集一堆User-Agent的方式,或者是随机生成User-Agent,达到伪造User-Agent的目的,即可解决这种反爬手段。


2、 通过referer字段或者是其他字段来反爬

Referer记录了你是从什么网站跳转到该网站的。比如通过Google搜索到Amazon.com,再点击跳转,那么本次请求中的headers中就会包含Referer:http://www.google.com,表示你从谷歌跳转而来。通过referer字段反爬,一般在针对图片、视频、音频资源时出现较多,当你访问这些资源时,服务端检查你的referer字段非正常便会给你返回一些假资源,如我们早年玩儿的QQ空间、天涯社区针对图片资源反爬出现的“盗链图片”



通过referer字段反爬,我们也可以在headers中伪造referer字段来解决。


3、 通过cookie来反爬

Cookie是网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据。如果目标网站不需要登录,每次请求带上前一次返回的cookie,比如requests模块的session,即可达到反爬目的。


如访问亚马逊美国站中ASIN为:XXX的商品,每次都带上不同的cookie,代码如下:


import requests

headers = {
   
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',
   
'Referer': "www.google.com"
}
session = requests.session()
# 先访问亚马逊主界面拿到cookies,保持会话。
session.get(
'https://www.amazon.com', headers=headers)


如果目标网站需要登录的话则准备多个账号,通过一个程序获取账号对应的cookie,组成cookie池,其他程序使用这些cookie即可访问到登陆后的页面。

 

 

 

二、通过验证码来反爬


上一次prime day亚马逊全站都开启验证码,那种寸步难行的感觉不知大家还记不记得?通过验证码来反爬是大多数网站通用的一种反爬手段,比较出名的有12306、google人机测试、极验滑块等。在这些验证码面前,亚马逊验证码还是显得很照顾用户体验的,至少没弹出什么奇奇怪怪的东西让我们点选,只是单纯的4-6位字母,那么要识别它还是挺Easy的!


Python通过获取大量的验证码图片素材,使用OCR、PIL、SVM等库进行验证码图片的二值化、切割、模型训练,最终可实现对亚马逊验证码的识别。


自己用Python识别这么多步骤、

这么多东西,搞起来是不是很难?

难!肯定是要花点儿时间的!

那咋整?



有一种东西“打码平台”!把验证码图片上传给他,在规定时间内(一般60S内)就会返回识别后的验证码。


下面是某打码平台的价格表:



该打码平台的充值比例为1元=2500快豆,如果我们选择6位纯字母模式识别的话,1块钱就可以识别166.66次…是不是超便宜?


各个打码平台的使用方法不一,这里就不贴代码了。选定一家打码平台,联系客服或者查看开发者文档demo,轻轻松松就能通过代码的形式搞定亚马逊验证码。


当然,有实力、有兴趣的同学还是建议自己弄验证码识别,毕竟是一劳永逸的事情。



三、通过ip地址来反爬


同一个ip大量请求了对方服务器,有更大的可能性会被识别为爬虫,ip就有可能被暂时拉进小黑屋。咋办?


别怕!用代理ip,完美解决这种反爬手段。


什么是代理ip?就好似你找了一个代理人,让他去访问你的目标网站,然后跟他要目标网站给他的数据


如图:


根据代理ip的匿名程度,代理ip可以分为下面四类:


  • 透明代理(Transparent Proxy)Transparent Proxy):透明代理虽然可以直接“隐藏”你的IP地址,但是还是可以查到你是谁。

  • 匿名代理(Anonymous Proxy):匿名代理比透明代理进步了一点:别人只能知道你用了代理,无法知道你是谁。


  • 混淆代理(Distorting Proxies):与匿名代理相同,如果使用了混淆代理,别人还是能知道你在用代理,但是会得到一个假的IP地址,伪装的更逼真


  • 高匿代理(Elite proxy或High Anonymity Proxy):可以看出来,高匿代理让别人根本无法发现你是在用代理,所以是最好的选择。


在使用的使用,毫无疑问使用高匿代理效果最好


从使用的协议:代理ip可以分为http代理,https代理,socket代理等,使用的时候需要根据抓取网站的协议来选择


在Python的requests库中,也早已设计了使用代理IP的方法:

import requests
proxies = {
 
"http": "http://10.10.1.10:3128",
 
"https": "http://10.10.1.10:1080",
}
requests.get(
"http://httpbin.org/ip", proxies=proxies)



四、通过前端样式反爬

上面是亚马逊搜索页面翻页的两种前端样式,估计一般人都不会注意这里有什么变化。两种前端的代码也有所不同,如果你的爬虫只针对其中一种页面获取下一页的url,就会导致你的爬虫在遇到另外一种翻页样式时挂掉。


这也正是亚马逊的高明之处,与国内电商相比,它在照顾用户体验的同时,也达到了反爬的目的。针对这种情况我们需要在爬虫里首先判断当前页面是哪种前端样式(多写两个if…else),这样才能兼容两种样式。


以上就是本人在编写亚马逊爬虫中遇到的反爬手段,希望能对大家有一些帮助!


最后希望大家且爬且珍惜,假如只要单纯商品的详情、报价和Sales Rank,用MWS API 就好。假如用爬虫,切记不要暴力的爬!破解验证码是有风险的,假如破解后还暴力的爬,那下次亚马逊恼羞成怒,可能就换另一种更强的反爬虫机制了,到时可就没得爬咯!


TikTok开户服务
TikTok开户服务
TT123推出的TikTok广告开户服务,深度洞察TikTok平台的流量优势与用户行为,帮助客户快速完成广告账户注册、资质审核及账户搭建,缩短启动周期,助您精准触达全球亿万活跃用户
立即咨询
交流群
全球电商平台开店交流群
扫码入群
咨询
官方微信群
官方客服

扫码添加,立即咨询

加群
官方微信群
官方微信群

扫码添加,拉你进群

更多
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯

回顶部