AMZ123跨境卖家导航
拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条文章详情

一篇文章让你无视80%的反爬网站!

任佳伟
任佳伟
38630
2018-11-20 20:07
2018-11-20 20:07
38630


有人的地方就有江湖,在爬虫的世界里也是一样。很多新手同学的爬虫简单粗暴,不管对端服务器的压力,直接多线程、多进程爬虫疯狂搞事。


服务器端

你要搞事是吧?我就不让你搞事!

爬虫

你不让我搞事是吧?我偏要搞事!



于是就有了反爬虫,有反爬虫就有反反爬虫,有反反爬虫就有反反反爬虫…


在看了前几期文章后有很多小伙伴已经能自己敲出指哪儿爬哪儿的爬虫了,却被亚马逊的反爬虫所困扰。爬着爬着弹个验证码、不返回正常数据,咋整?

所谓道高一尺魔高一丈,下面将为大家列举亚马逊的几种反爬手段及解决办法!



一、通过headers字段来反爬


Headers是什么?

首先要说明一下HTTP是“Hypertext Transfer Protocol”的所写,整个万维网都在使用这种协议,几乎你在浏览器里看到的大部分内容都是通过http协议来传输的, 而Headers是HTTP请求和相应的核心,它承载了关于客户端浏览器,请求页面,服务器等相关的信息。


下图就是访问https://www.amazon.com/时的Request Headers:



其中包含了authority、cookie、user-agent等字段。


1、通过User-Agent字段来反爬

User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。


标准格式为: 浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识 版本信息。


大多数网站都会在后台的根目录下放置一个名为“robots.txt”的文件,在这个文件中规定了某些特定的User-Agent哪些页面可以访问,哪些页面不可以访问。如亚马逊美国站的“robots.txt”地址为:https://www.amazon.com/robots.txt,大家可以访问看一看。robots.txt一般称为robots协议,可以说是一个君子协议,遵不遵守还看个人。我们可以考虑收集一堆User-Agent的方式,或者是随机生成User-Agent,达到伪造User-Agent的目的,即可解决这种反爬手段。


2、 通过referer字段或者是其他字段来反爬

Referer记录了你是从什么网站跳转到该网站的。比如通过Google搜索到Amazon.com,再点击跳转,那么本次请求中的headers中就会包含Referer:http://www.google.com,表示你从谷歌跳转而来。通过referer字段反爬,一般在针对图片、视频、音频资源时出现较多,当你访问这些资源时,服务端检查你的referer字段非正常便会给你返回一些假资源,如我们早年玩儿的QQ空间、天涯社区针对图片资源反爬出现的“盗链图片”



通过referer字段反爬,我们也可以在headers中伪造referer字段来解决。


3、 通过cookie来反爬

Cookie是网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据。如果目标网站不需要登录,每次请求带上前一次返回的cookie,比如requests模块的session,即可达到反爬目的。


如访问亚马逊美国站中ASIN为:XXX的商品,每次都带上不同的cookie,代码如下:


import requests

headers = {
   
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',
   
'Referer': "www.google.com"
}
session = requests.session()
# 先访问亚马逊主界面拿到cookies,保持会话。
session.get(
'https://www.amazon.com', headers=headers)


如果目标网站需要登录的话则准备多个账号,通过一个程序获取账号对应的cookie,组成cookie池,其他程序使用这些cookie即可访问到登陆后的页面。

 

 

 

二、通过验证码来反爬


上一次prime day亚马逊全站都开启验证码,那种寸步难行的感觉不知大家还记不记得?通过验证码来反爬是大多数网站通用的一种反爬手段,比较出名的有12306、google人机测试、极验滑块等。在这些验证码面前,亚马逊验证码还是显得很照顾用户体验的,至少没弹出什么奇奇怪怪的东西让我们点选,只是单纯的4-6位字母,那么要识别它还是挺Easy的!


Python通过获取大量的验证码图片素材,使用OCR、PIL、SVM等库进行验证码图片的二值化、切割、模型训练,最终可实现对亚马逊验证码的识别。


自己用Python识别这么多步骤、

这么多东西,搞起来是不是很难?

难!肯定是要花点儿时间的!

那咋整?



有一种东西“打码平台”!把验证码图片上传给他,在规定时间内(一般60S内)就会返回识别后的验证码。


下面是某打码平台的价格表:



该打码平台的充值比例为1元=2500快豆,如果我们选择6位纯字母模式识别的话,1块钱就可以识别166.66次…是不是超便宜?


各个打码平台的使用方法不一,这里就不贴代码了。选定一家打码平台,联系客服或者查看开发者文档demo,轻轻松松就能通过代码的形式搞定亚马逊验证码。


当然,有实力、有兴趣的同学还是建议自己弄验证码识别,毕竟是一劳永逸的事情。



三、通过ip地址来反爬


同一个ip大量请求了对方服务器,有更大的可能性会被识别为爬虫,ip就有可能被暂时拉进小黑屋。咋办?


别怕!用代理ip,完美解决这种反爬手段。


什么是代理ip?就好似你找了一个代理人,让他去访问你的目标网站,然后跟他要目标网站给他的数据


如图:


根据代理ip的匿名程度,代理ip可以分为下面四类:


  • 透明代理(Transparent Proxy)Transparent Proxy):透明代理虽然可以直接“隐藏”你的IP地址,但是还是可以查到你是谁。

  • 匿名代理(Anonymous Proxy):匿名代理比透明代理进步了一点:别人只能知道你用了代理,无法知道你是谁。


  • 混淆代理(Distorting Proxies):与匿名代理相同,如果使用了混淆代理,别人还是能知道你在用代理,但是会得到一个假的IP地址,伪装的更逼真


  • 高匿代理(Elite proxy或High Anonymity Proxy):可以看出来,高匿代理让别人根本无法发现你是在用代理,所以是最好的选择。


在使用的使用,毫无疑问使用高匿代理效果最好


从使用的协议:代理ip可以分为http代理,https代理,socket代理等,使用的时候需要根据抓取网站的协议来选择


在Python的requests库中,也早已设计了使用代理IP的方法:

import requests
proxies = {
 
"http": "http://10.10.1.10:3128",
 
"https": "http://10.10.1.10:1080",
}
requests.get(
"http://httpbin.org/ip", proxies=proxies)



四、通过前端样式反爬

上面是亚马逊搜索页面翻页的两种前端样式,估计一般人都不会注意这里有什么变化。两种前端的代码也有所不同,如果你的爬虫只针对其中一种页面获取下一页的url,就会导致你的爬虫在遇到另外一种翻页样式时挂掉。


这也正是亚马逊的高明之处,与国内电商相比,它在照顾用户体验的同时,也达到了反爬的目的。针对这种情况我们需要在爬虫里首先判断当前页面是哪种前端样式(多写两个if…else),这样才能兼容两种样式。


以上就是本人在编写亚马逊爬虫中遇到的反爬手段,希望能对大家有一些帮助!


最后希望大家且爬且珍惜,假如只要单纯商品的详情、报价和Sales Rank,用MWS API 就好。假如用爬虫,切记不要暴力的爬!破解验证码是有风险的,假如破解后还暴力的爬,那下次亚马逊恼羞成怒,可能就换另一种更强的反爬虫机制了,到时可就没得爬咯!




免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签
印尼电商Blibli公布25财年财报,营收增至22.36万亿印尼盾
AMZ123获悉,近日,印尼电商平台Blibli母公司PT Global Digital Niaga公布截至2025年12月31日的2025财年及第四季度业绩,公司在收入持续增长的同时显著收窄亏损,盈利能力和运营效率均有所改善。以下为Q4财务亮点:①净收入为71,220亿印尼盾,同比增长55%,上年同期为45,840亿印尼盾。②毛利润为12,310亿印尼盾,同比增长28%,上年同期为9,590亿印尼盾。③毛利率为17.3%,同比下降360个基点。④运营费用为15,840亿印尼盾,同比增长1%。⑤经营亏损为3,380亿印尼盾,同比收窄45%,上年同期为亏损6,200亿印尼盾。
男装区跑出黑马!TikTok一条“万能5分裤”卖了近150万
根据fortunebusinessinsights,2026年,全球男装市场规模约为7234亿美元,预计到2034年将增至1.24万亿美元,预测期内年复合增长率为6.92%。愈发多元的男士着装需求,拉动市场规模一路狂飙,在TikTok美区一款表面看起来平平无奇的男士裤衩,7天时间销量环比暴涨了12573.85%,成为类目的绝对黑马。01TikTok男士裤衩,销量暴走TT123观察到,3.23-29期间,在TikTok美区运动与户外类目,一款男士5分裤的周销量环比跳涨了120倍,在售价相差无几的情况下,销售额已反超类目“资深”的爆款女装。
印尼Q1快消品电商销售超400万亿印尼盾,Tokopedia增长最快
AMZ123获悉,近日,根据Compas.co.id最新发布的报告,2026年第一季度印尼快速消费品(FMCG)电商销售额创下新高,总额超过400万亿印尼盾,高于2025年第四季度的396万亿印尼盾。报告显示,美妆类依然是销售主力,季度销售额达到186万亿印尼盾,同比增长33%。食品饮料(F&B)类受益于斋月与开斋节消费热潮,实现103万亿印尼盾的销售额,同比激增88%,成为增长最快的核心品类之一。家居清洁用品类表现亮眼,销售额达到20万亿印尼盾,同比大幅增长96%,其中包括纸巾、杀虫剂及家用清洁用品等深受消费者欢迎的商品。
印度优化电商出口与退货流程,降低卖家物流成本
AMZ123获悉,近日,印度中央间接税与关税委员会(CBIC)宣布,自2026年4月1日起,正式实施一系列针对电商出口和快递贸易的综合改革措施,此举旨在优化出口流程、提升物流效率,并增强印度在全球贸易中的竞争力,尤其惠及中小企业、手工艺者和初创企业。根据印度财政部的公告,此次改革取消了此前每票快递出口货物10万卢比的价值上限,允许电商出口商在快递模式下更灵活地处理高价值货物,无需转向传统航空或海运货运。这一措施预计将显著促进出口增长,简化卖家的操作流程,降低物流限制对业务的影响。为缓解国际快递中转站的拥堵、未清关、无人认领货物的滞留问题,CBIC引入了“退回原地”(Return to Origin,RTO)机制。
百亿营收难掩利润“雪崩”,傲基怎么了
在新一轮的财报季中,这位头顶“百亿大卖”、“华南城四少之一”两大光环的跨境大卖,交出了一份“冰火两重天”的成绩单。AMZ123获悉,3月27日,傲基股份发布了2025年业绩公告。报告期内,傲基实现营业收入136.99亿元,同比增长27.9%,继2024年突破百亿营收后再度创下新高。在宏观经济承压、市场充满不确定性的背景下,这无疑是一份亮眼的营收答卷。从业务结构来看,支撑傲基维持百亿营收的,仍是来自商品销售板块的持续增长。财报显示,傲基商品销售全年实现收入95.82亿元,同比增长15.9%,占总收入的69.9%。
今日生效!9610出口退货可跨关区办理
AMZ123获悉,3月13日,海关总署发布《海关总署关于全面推广跨境电商零售出口商品跨关区退货的公告》政策解读,明确在前期试点基础上,全面推广跨境电商零售出口商品跨关区退货模式。 今日,该政策已正式生效。 所谓跨境电商零售出口商品跨关区退货,是指跨境电商企业以零售出口方式申报出口的商品,在海外发生退货后,不再要求必须退回原出口海关,而是可以根据实际需要,选择全国范围内任一海关口岸办理退运进境手续。 其优势在于: 退货口岸选择更加灵活。过去,跨境电商零售出口商品发生退货后,通常要回到原出口地办理相关手续,既增加物流调拨成本,也拉长退货周期。
Stripe与Meta合作,FB广告可完成一键结账
Fin123获悉,近日,Stripe宣布,为Facebook广告商推出全新结账体验,使消费者无需离开应用即可完成购买。通过这项功能,使用Stripe的卖家可以将Facebook广告与支付系统直接连接,买家点击广告中的“立即购买”按钮后,可使用Meta钱包中保存的支付凭证完成一键结账。该流程基于《智能体商务协议》,未来将扩展到包括Instagram广告在内的更多Meta平台。卖家可在Stripe管理平台中通过开关选择启用此功能,并关联其Meta广告账户。启用后,购买过程将完全嵌入广告体验,消除了用户在传统跳转浏览器或应用完成交易时的中断,从而提升购买转化率。
亚马逊如何构建品牌出海战略蓝图?实现长远发展
当前跨境出海赛道已从流量红利驱动的野蛮增长,转向品牌价值驱动的长期竞争。对于依托亚马逊平台布局全球市场的企业而言,零散的战术打法已无法支撑持续增长,唯有构建系统化的品牌出海战略蓝图,才能在全球市场竞争中锚定清晰路径,实现穿越周期的长效增长。本文基于亚马逊广告的品牌战略方法论,从趋势洞察、风险规避、框架搭建、落地心法四大维度,拆解品牌出海战略蓝图的完整构建逻辑,为出海企业提供可落地的战略指导。一、趋势洞察:锚定全球出海的底层航向战略构建的前提,是精准把握全球市场的底层趋势,确保战略方向与市场发展同频,避免在错误的赛道上投入资源。
突发!亚马逊搜索页大变天,Rufus 直接 “抢” 走大词流量
亚马逊搜索页更新!Rufus 截流大词,卖家如何保住流量?
卖家必看!2026出海全链路行动指南
在全球贸易格局深度重构、跨境电商从规模扩张转向高质量发展的今天,中国品牌出海已迈入全新阶段:精细化运营、品牌化建设、本地化深耕、生态化协同成为出海企业的核心竞争力。面对合规门槛提升、消费者需求升级、市场竞争加剧的多重挑战,单打独斗的出海模式早已行不通,与专业生态伙伴一起价值拼合,成为品牌高效破局、降低风险、实现可持续增长的必然选择。为此,卧兔WotoHub联合YinoLink易诺、店匠Shoplazza、连连、云途物流五大出海生态领军者,重磅发布《2026品牌出海行动指南》。
靠一件吊带裙,TikTok卖家7天拿下百万订单
国产女装杀疯了,这件清凉单品在TikTok卖了上千万
支出将达1650亿美元!26年美国宠物行业报告出炉
AMZ123获悉,近日,根据美国宠物用品协会(APPA)最新发布的《2026年行业状况报告》,美国宠物行业在2025年的总支出达到1580亿美元,同比增长3.7%,预计2026年将继续增长至1650亿美元,全年增速约4.4%。报告显示,尽管经济环境存在压力,美国养宠家庭规模依然稳步扩大,2025年共有9500万户家庭至少拥有一只宠物,宠物已成为美国家庭的重要组成部分。数据显示,年轻人正在成为市场核心消费力。千禧一代养宠人士占比30%,Z世代占比20%,X世代占比25%,婴儿潮一代占25%。
为什么广泛匹配总跑出不相关的词,被80%卖家误判的相关性
如题,是前几天收到的一个卖家的问题基于cosmo算法我重新梳理了一下出现这种情况的原因逻辑同时结合自己的操作习惯,说说如何应对这个问题不能单纯的纠结于“相关性”的问题因为广泛匹配跑出大量不相关词这个本来就是自身匹配逻辑(四种)决定的而应该跳出相关性单一的判定标准看多看一个维度---转化这样才能弥补我们卖家和平台匹配算法间的认知差距亚马逊定义的相关和我们认为的相关,本身是不对等的所以我上面用引号的相关性 亚马逊定义的相关是有转化概率的相关而我们卖家通常理解的是产品属性相关 在cosmo算法下,广泛匹配比之前字面匹配更广泛这种情况在这两年的广告数据中体现的很明显包括我自己看到的广告数据也是,这已经不是偶然个例而
巴西电商支出到2036年将增长104%,新兴市场加速崛起
AMZ123获悉,近日,由EBANX与World Data Lab联合发布、收录于《2026超越国界》报告的数据显示,巴西电商在整体消费结构中的占比持续提升。到2036年,巴西消费者线上支出预计增长104%,明显高于整体消费(包含线上与线下)66%的增速。目前,巴西消费者已将11.5%的消费支出用于电商,这一比例已经高于多个发达国家,包括美国(9.1%)、荷兰(9%)、法国(6.9%)、德国(6.4%)和意大利(5.4%)。未来十年,巴西消费者线上支出占比预计将进一步提升至15.2%。类似趋势也出现在印度、印度尼西亚和尼日利亚等新兴市场,这些国家的电商增长速度整体快于发达市场。
梅西起诉中国跨境卖家!单件索赔200万,世界杯风口变“封号风口”
近日,歌手李荣浩在社交平台连发“四连问”,控诉单依纯未经授权翻唱其代表作《李白》,该事件刷屏全网,让版权合规问
境外主体失效!亚马逊Q4报送港、美主体涉税数据
近期,跨境电商圈被一句 “不是说境外主体不报送吗?” 彻底刷屏。
《TikTok Shop 2025年度报告》PDF下载
2025年,TikTok Shop进一步加快扩张步伐,在巩固欧美成熟市场的同时,积极开拓新兴市场,先后上线德国、意大利、法国、日本等站点。此举不仅为平台带来新增量,也体现出其多元化市场战略的初步成效,以分散地缘政治风险。
《Shopee2025印尼站点X 汽车摩托品类专题》PDF下载
印尼当地汽车保有量并不高,每一千人的机动车保有量仅96人,未来可提升的空间仍大。空间参照系可以看泰国和马来,2024年泰国汽车保有量为322辆/千人,马来西亚为531辆/千人。
《2026年Shopee运动户外类目自行车爆品分享》PDF下载
巴西骑行爱好群体广泛,但平台上热销品呈现出的国际大牌极少,推测可能原因是国际品牌可能主要通过线下经销或自行渠道销售,未深度参与Shopee等本土电商。因此巴西用户在平台上几乎接触不到这些高端品牌产品。平台上巴西用户更倾向购买本土品牌的自行车,可能出于价格实惠和售后便利考虑。
2025年TikTok生态发展白皮书
2025年,全球内容电商迈入深度跃迁的新周期。TikTokShop正以前所未有的速度拓展市场版图,完成从高速增长向高质量增长的跃迁。在这一进程中,生态结构重构、参与者多元化、全球政策协同等因素叠加,构成内容电商演进的核心变量。
《2026美妆健康与保健创新报告》PDF下载
每年,我们都会分析美妆与个护以及健康与家居类目的动态变化。但2026 年呈现了一个意外的新现象:这两个类目不再孤立运营。美妆和健康正与食品杂货融合,形成由配方创新、成分病毒式传播和消费者行为演变所驱动的强大三方生态系统。
《中国宠物食品行业出海国别机会洞察报告》PDF下载
本报告旨在深入分析中国宠物食品的全球出口机遇与国别差异,通过对行业发展现状、出口趋势及各国政策环境的研究,揭示中国宠物食品企业在国际市场中的竞争优势与面临的潜在挑战。
《市场洞察:2025中国汽车出海英国市场动态追踪》PDF下载
根据英国汽车制造商与贸易商协会数据显示,2025年1-9月中国汽车出海英国累计销量142,684辆,同比增长91%,远超英国整体市场4.2%增速。中国汽车出海英国市场份额从年初5%升至9月12.4%,成为英国第二大汽车来源国,仅次于德国。
《2026取暖电器行业简析报告》PDF下载
系统梳理了行业发展脉络、市场格局与未来趋势。取暖电器按能源类型与产品形态可分为电取暖、燃气取暖、辅助本报告为 2026 年中国取暖电器行业专业简析,集成类三大核心品类,行业发展历经萌芽起步、快速成长、加速升级、高质量发展四大阶段,完成了从单一功能向智能化、节能化、场景化的全面演进。
跨境电商赢商荟
跨境电商行业唯一一家一年365天不断更的媒体!
跨境学院
跨境电商大小事,尽在跨境学院。
AMZ123卖家导航
这个人很懒,还没有自我介绍
北美电商资讯
AMZ123旗下北美跨境电商新闻栏目,专注北美跨境电商热点资讯,为广大卖家提供北美跨境电商最新动态、最热新闻。
亚马逊公告
AMZ123旗下亚马逊公告发布平台,实时更新亚马逊最新公告,致力打造最及时和有态度的亚马逊公告栏目!
跨境电商干货集结
跨境电商干货集结,是结合亚马逊跨境电商卖家交流群内大家在交流过程中最常遇到的问题,进行收集整理,汇总解答,将会持续更新大家当前最常遇见的问题。欢迎大家加入跨境电商干货集结卖家交流群一起探讨。
AMZ123选品观察员
选品推荐及选品技巧分享。
AMZ123跨境电商
专注跨境行业热点事件报道,每日坚持推送原创深度热文
首页
跨境头条
文章详情
一篇文章让你无视80%的反爬网站!
任佳伟
2018-11-20 20:07
38630


有人的地方就有江湖,在爬虫的世界里也是一样。很多新手同学的爬虫简单粗暴,不管对端服务器的压力,直接多线程、多进程爬虫疯狂搞事。


服务器端

你要搞事是吧?我就不让你搞事!

爬虫

你不让我搞事是吧?我偏要搞事!



于是就有了反爬虫,有反爬虫就有反反爬虫,有反反爬虫就有反反反爬虫…


在看了前几期文章后有很多小伙伴已经能自己敲出指哪儿爬哪儿的爬虫了,却被亚马逊的反爬虫所困扰。爬着爬着弹个验证码、不返回正常数据,咋整?

所谓道高一尺魔高一丈,下面将为大家列举亚马逊的几种反爬手段及解决办法!



一、通过headers字段来反爬


Headers是什么?

首先要说明一下HTTP是“Hypertext Transfer Protocol”的所写,整个万维网都在使用这种协议,几乎你在浏览器里看到的大部分内容都是通过http协议来传输的, 而Headers是HTTP请求和相应的核心,它承载了关于客户端浏览器,请求页面,服务器等相关的信息。


下图就是访问https://www.amazon.com/时的Request Headers:



其中包含了authority、cookie、user-agent等字段。


1、通过User-Agent字段来反爬

User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。


标准格式为: 浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识 版本信息。


大多数网站都会在后台的根目录下放置一个名为“robots.txt”的文件,在这个文件中规定了某些特定的User-Agent哪些页面可以访问,哪些页面不可以访问。如亚马逊美国站的“robots.txt”地址为:https://www.amazon.com/robots.txt,大家可以访问看一看。robots.txt一般称为robots协议,可以说是一个君子协议,遵不遵守还看个人。我们可以考虑收集一堆User-Agent的方式,或者是随机生成User-Agent,达到伪造User-Agent的目的,即可解决这种反爬手段。


2、 通过referer字段或者是其他字段来反爬

Referer记录了你是从什么网站跳转到该网站的。比如通过Google搜索到Amazon.com,再点击跳转,那么本次请求中的headers中就会包含Referer:http://www.google.com,表示你从谷歌跳转而来。通过referer字段反爬,一般在针对图片、视频、音频资源时出现较多,当你访问这些资源时,服务端检查你的referer字段非正常便会给你返回一些假资源,如我们早年玩儿的QQ空间、天涯社区针对图片资源反爬出现的“盗链图片”



通过referer字段反爬,我们也可以在headers中伪造referer字段来解决。


3、 通过cookie来反爬

Cookie是网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据。如果目标网站不需要登录,每次请求带上前一次返回的cookie,比如requests模块的session,即可达到反爬目的。


如访问亚马逊美国站中ASIN为:XXX的商品,每次都带上不同的cookie,代码如下:


import requests

headers = {
   
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',
   
'Referer': "www.google.com"
}
session = requests.session()
# 先访问亚马逊主界面拿到cookies,保持会话。
session.get(
'https://www.amazon.com', headers=headers)


如果目标网站需要登录的话则准备多个账号,通过一个程序获取账号对应的cookie,组成cookie池,其他程序使用这些cookie即可访问到登陆后的页面。

 

 

 

二、通过验证码来反爬


上一次prime day亚马逊全站都开启验证码,那种寸步难行的感觉不知大家还记不记得?通过验证码来反爬是大多数网站通用的一种反爬手段,比较出名的有12306、google人机测试、极验滑块等。在这些验证码面前,亚马逊验证码还是显得很照顾用户体验的,至少没弹出什么奇奇怪怪的东西让我们点选,只是单纯的4-6位字母,那么要识别它还是挺Easy的!


Python通过获取大量的验证码图片素材,使用OCR、PIL、SVM等库进行验证码图片的二值化、切割、模型训练,最终可实现对亚马逊验证码的识别。


自己用Python识别这么多步骤、

这么多东西,搞起来是不是很难?

难!肯定是要花点儿时间的!

那咋整?



有一种东西“打码平台”!把验证码图片上传给他,在规定时间内(一般60S内)就会返回识别后的验证码。


下面是某打码平台的价格表:



该打码平台的充值比例为1元=2500快豆,如果我们选择6位纯字母模式识别的话,1块钱就可以识别166.66次…是不是超便宜?


各个打码平台的使用方法不一,这里就不贴代码了。选定一家打码平台,联系客服或者查看开发者文档demo,轻轻松松就能通过代码的形式搞定亚马逊验证码。


当然,有实力、有兴趣的同学还是建议自己弄验证码识别,毕竟是一劳永逸的事情。



三、通过ip地址来反爬


同一个ip大量请求了对方服务器,有更大的可能性会被识别为爬虫,ip就有可能被暂时拉进小黑屋。咋办?


别怕!用代理ip,完美解决这种反爬手段。


什么是代理ip?就好似你找了一个代理人,让他去访问你的目标网站,然后跟他要目标网站给他的数据


如图:


根据代理ip的匿名程度,代理ip可以分为下面四类:


  • 透明代理(Transparent Proxy)Transparent Proxy):透明代理虽然可以直接“隐藏”你的IP地址,但是还是可以查到你是谁。

  • 匿名代理(Anonymous Proxy):匿名代理比透明代理进步了一点:别人只能知道你用了代理,无法知道你是谁。


  • 混淆代理(Distorting Proxies):与匿名代理相同,如果使用了混淆代理,别人还是能知道你在用代理,但是会得到一个假的IP地址,伪装的更逼真


  • 高匿代理(Elite proxy或High Anonymity Proxy):可以看出来,高匿代理让别人根本无法发现你是在用代理,所以是最好的选择。


在使用的使用,毫无疑问使用高匿代理效果最好


从使用的协议:代理ip可以分为http代理,https代理,socket代理等,使用的时候需要根据抓取网站的协议来选择


在Python的requests库中,也早已设计了使用代理IP的方法:

import requests
proxies = {
 
"http": "http://10.10.1.10:3128",
 
"https": "http://10.10.1.10:1080",
}
requests.get(
"http://httpbin.org/ip", proxies=proxies)



四、通过前端样式反爬

上面是亚马逊搜索页面翻页的两种前端样式,估计一般人都不会注意这里有什么变化。两种前端的代码也有所不同,如果你的爬虫只针对其中一种页面获取下一页的url,就会导致你的爬虫在遇到另外一种翻页样式时挂掉。


这也正是亚马逊的高明之处,与国内电商相比,它在照顾用户体验的同时,也达到了反爬的目的。针对这种情况我们需要在爬虫里首先判断当前页面是哪种前端样式(多写两个if…else),这样才能兼容两种样式。


以上就是本人在编写亚马逊爬虫中遇到的反爬手段,希望能对大家有一些帮助!


最后希望大家且爬且珍惜,假如只要单纯商品的详情、报价和Sales Rank,用MWS API 就好。假如用爬虫,切记不要暴力的爬!破解验证码是有风险的,假如破解后还暴力的爬,那下次亚马逊恼羞成怒,可能就换另一种更强的反爬虫机制了,到时可就没得爬咯!




1
咨询
官方微信群
官方客服

扫码添加,立即咨询

加群
官方微信群
官方微信群

扫码添加,拉你进群

更多
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯

回顶部