拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条正文

一篇文章让你无视80%的反爬网站!

任佳伟
以中国亚马逊卖家为中心,引导每一个卖家,运用互联网产品运营的思维去经营自己的店铺和产品,希望能把每一家在亚马逊上卖货的公司,变成一家互联网公司.让爆单成为每个卖家日常生活的一部分.
21723
2018-11-20 20:07


有人的地方就有江湖,在爬虫的世界里也是一样。很多新手同学的爬虫简单粗暴,不管对端服务器的压力,直接多线程、多进程爬虫疯狂搞事。


服务器端

你要搞事是吧?我就不让你搞事!

爬虫

你不让我搞事是吧?我偏要搞事!



于是就有了反爬虫,有反爬虫就有反反爬虫,有反反爬虫就有反反反爬虫…


在看了前几期文章后有很多小伙伴已经能自己敲出指哪儿爬哪儿的爬虫了,却被亚马逊的反爬虫所困扰。爬着爬着弹个验证码、不返回正常数据,咋整?

所谓道高一尺魔高一丈,下面将为大家列举亚马逊的几种反爬手段及解决办法!



一、通过headers字段来反爬


Headers是什么?

首先要说明一下HTTP是“Hypertext Transfer Protocol”的所写,整个万维网都在使用这种协议,几乎你在浏览器里看到的大部分内容都是通过http协议来传输的, 而Headers是HTTP请求和相应的核心,它承载了关于客户端浏览器,请求页面,服务器等相关的信息。


下图就是访问https://www.amazon.com/时的Request Headers:



其中包含了authority、cookie、user-agent等字段。


1、通过User-Agent字段来反爬

User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。


标准格式为: 浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识 版本信息。


大多数网站都会在后台的根目录下放置一个名为“robots.txt”的文件,在这个文件中规定了某些特定的User-Agent哪些页面可以访问,哪些页面不可以访问。如亚马逊美国站的“robots.txt”地址为:https://www.amazon.com/robots.txt,大家可以访问看一看。robots.txt一般称为robots协议,可以说是一个君子协议,遵不遵守还看个人。我们可以考虑收集一堆User-Agent的方式,或者是随机生成User-Agent,达到伪造User-Agent的目的,即可解决这种反爬手段。


2、 通过referer字段或者是其他字段来反爬

Referer记录了你是从什么网站跳转到该网站的。比如通过Google搜索到Amazon.com,再点击跳转,那么本次请求中的headers中就会包含Referer:http://www.google.com,表示你从谷歌跳转而来。通过referer字段反爬,一般在针对图片、视频、音频资源时出现较多,当你访问这些资源时,服务端检查你的referer字段非正常便会给你返回一些假资源,如我们早年玩儿的QQ空间、天涯社区针对图片资源反爬出现的“盗链图片”



通过referer字段反爬,我们也可以在headers中伪造referer字段来解决。


3、 通过cookie来反爬

Cookie是网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据。如果目标网站不需要登录,每次请求带上前一次返回的cookie,比如requests模块的session,即可达到反爬目的。


如访问亚马逊美国站中ASIN为:XXX的商品,每次都带上不同的cookie,代码如下:


import requests

headers = {
   
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',
   
'Referer': "www.google.com"
}
session = requests.session()
# 先访问亚马逊主界面拿到cookies,保持会话。
session.get(
'https://www.amazon.com', headers=headers)


如果目标网站需要登录的话则准备多个账号,通过一个程序获取账号对应的cookie,组成cookie池,其他程序使用这些cookie即可访问到登陆后的页面。

 

 

 

二、通过验证码来反爬


上一次prime day亚马逊全站都开启验证码,那种寸步难行的感觉不知大家还记不记得?通过验证码来反爬是大多数网站通用的一种反爬手段,比较出名的有12306、google人机测试、极验滑块等。在这些验证码面前,亚马逊验证码还是显得很照顾用户体验的,至少没弹出什么奇奇怪怪的东西让我们点选,只是单纯的4-6位字母,那么要识别它还是挺Easy的!


Python通过获取大量的验证码图片素材,使用OCR、PIL、SVM等库进行验证码图片的二值化、切割、模型训练,最终可实现对亚马逊验证码的识别。


自己用Python识别这么多步骤、

这么多东西,搞起来是不是很难?

难!肯定是要花点儿时间的!

那咋整?



有一种东西“打码平台”!把验证码图片上传给他,在规定时间内(一般60S内)就会返回识别后的验证码。


下面是某打码平台的价格表:



该打码平台的充值比例为1元=2500快豆,如果我们选择6位纯字母模式识别的话,1块钱就可以识别166.66次…是不是超便宜?


各个打码平台的使用方法不一,这里就不贴代码了。选定一家打码平台,联系客服或者查看开发者文档demo,轻轻松松就能通过代码的形式搞定亚马逊验证码。


当然,有实力、有兴趣的同学还是建议自己弄验证码识别,毕竟是一劳永逸的事情。



三、通过ip地址来反爬


同一个ip大量请求了对方服务器,有更大的可能性会被识别为爬虫,ip就有可能被暂时拉进小黑屋。咋办?


别怕!用代理ip,完美解决这种反爬手段。


什么是代理ip?就好似你找了一个代理人,让他去访问你的目标网站,然后跟他要目标网站给他的数据


如图:


根据代理ip的匿名程度,代理ip可以分为下面四类:


  • 透明代理(Transparent Proxy)Transparent Proxy):透明代理虽然可以直接“隐藏”你的IP地址,但是还是可以查到你是谁。

  • 匿名代理(Anonymous Proxy):匿名代理比透明代理进步了一点:别人只能知道你用了代理,无法知道你是谁。


  • 混淆代理(Distorting Proxies):与匿名代理相同,如果使用了混淆代理,别人还是能知道你在用代理,但是会得到一个假的IP地址,伪装的更逼真


  • 高匿代理(Elite proxy或High Anonymity Proxy):可以看出来,高匿代理让别人根本无法发现你是在用代理,所以是最好的选择。


在使用的使用,毫无疑问使用高匿代理效果最好


从使用的协议:代理ip可以分为http代理,https代理,socket代理等,使用的时候需要根据抓取网站的协议来选择


在Python的requests库中,也早已设计了使用代理IP的方法:

import requests
proxies = {
 
"http": "http://10.10.1.10:3128",
 
"https": "http://10.10.1.10:1080",
}
requests.get(
"http://httpbin.org/ip", proxies=proxies)



四、通过前端样式反爬

上面是亚马逊搜索页面翻页的两种前端样式,估计一般人都不会注意这里有什么变化。两种前端的代码也有所不同,如果你的爬虫只针对其中一种页面获取下一页的url,就会导致你的爬虫在遇到另外一种翻页样式时挂掉。


这也正是亚马逊的高明之处,与国内电商相比,它在照顾用户体验的同时,也达到了反爬的目的。针对这种情况我们需要在爬虫里首先判断当前页面是哪种前端样式(多写两个if…else),这样才能兼容两种样式。


以上就是本人在编写亚马逊爬虫中遇到的反爬手段,希望能对大家有一些帮助!


最后希望大家且爬且珍惜,假如只要单纯商品的详情、报价和Sales Rank,用MWS API 就好。假如用爬虫,切记不要暴力的爬!破解验证码是有风险的,假如破解后还暴力的爬,那下次亚马逊恼羞成怒,可能就换另一种更强的反爬虫机制了,到时可就没得爬咯!




AMZ123跨境卖家导航旗下公众号【AMZ123跨境电商】深耕跨境行业,专注热点报道。
扫描右边二维码,关注后回复【加群】,加入优质卖家交流群~
目前30W+卖家关注我们
二维码
免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签问答
一周连开三个跨境仓!菜鸟新添青岛产业带仓
跨境电商的热情已经蔓延到全国特色产业带。 4月19日,一个山东造的鱼饵成功出库,即将踏上去往法国的全球之旅。这标志着速卖通与菜鸟青岛产业带仓正式投入运营,紧随天津和成都的步伐。速卖通半托管一周内“特种兵式”连开三仓,与菜鸟一起把跨境仓开到产业带商家门口,让更多商家享受托管模式带来的流量红利。 今年1月,速卖通宣布正式推出“半托管”服务,为POP(自运营商家)低成本升级物流服务。随后,半托管的热度持
夏季爆品~泳池滤网专利汇总分析
泳池撇渣网有各种形状和尺寸,每种形状和尺寸均针对特定的清洁需求而设计。从用于一般杂物清除的平网到用于收集较大树叶和树枝的叶耙网,选择正确的类型可确保有效的清洁。那这款 月销5k+的品,简简单单操作无忧,利润如何呢?通过卖家精灵找货源,查询产品成本。通过成本优化利润空间还是很香的~马上来查看专利情况专利号:USD1023488S 专利号:USD1023490S 专利号:USD1023487S 专
一夜之间大批卖家货物被偷,又迎大量Listing将被下架!跨境赚钱"好日子"到头了?
跨境电商卖家爆单赚钱日子没了?出品 | 电商123 作者 | 老柴01跨境卖家大批货在美国被偷!电商123获悉,比起亚马逊平台新规则,对国内跨境卖家更为致命的打击就是自己的大批货物在美国被偷盗了。4月19日上午消息,这两天有不少国内跨境卖家收到了货代的通知,高通胀和经济下行正在导致美国一元购、盗窃频发,自己送往美国海外仓的卡车整部被盗,暂时还未找到被偷的商品。▲图源网络,侵删接下来各卖家赶紧联
一周连开三个跨境仓!菜鸟新添青岛产业带仓
跨境电商的热情已经蔓延到全国特色产业带。 4月19日,一个山东造的鱼饵成功出库,即将踏上去往法国的全球之旅。这标志着速卖通与菜鸟青岛产业带仓正式投入运营,紧随天津和成都的步伐。速卖通半托管一周内“特种兵式”连开三仓,与菜鸟一起把跨境仓开到产业带商家门口,让更多商家享受托管模式带来的流量红利。今年1月,速卖通宣布正式推出“半托管”服务,为POP(自运营商家)低成本升级物流服务。随后,半
马来西亚加强BNPL业务监管,Shopee等服务供应商被点名!
AMZ123获悉,4月18日,据外媒报道,马来西亚国家银行(BNM)宣布将起草消费者信贷法(CCA),对先买后付(BNPL)信贷提供商实施更严格的监管。据了解,BNM计划初期将成立一个特别监管机构。马来西亚消费者信贷监督委员会(CCOB)将为此制定全面性框架,包括国内贸易和生活成本部及房屋和地方政府部在内的数个部门也将参与制定法案。BNM普惠金融部门主管Nor Rafidz Nazri表示,新法案
德国消费者购物习惯研究:网购退货率达11%
AMZ123获悉,4月18日,据外媒报道,德国消费者的网购退货率为11%,其中年轻消费者的退货频率相对更频繁。据了解,德国数字协会Bitkom调查了1050名16岁及以上的德国消费者的购物习惯。数据显示,16岁至29岁的消费者退货率为15%,30至49岁的消费者为13%。50岁至64岁的消费者为10%,而65岁以上的消费者退货率仅为7%。此外,男性消费者的退货比例(9%)较低于女性消费者(14%)
大件卖家看这里!直达货源,选品快捷,独家干货限时分享
“您是否正为寻找优质、稳定的大件商品供应链而烦恼?您是否期待与工厂直接对接获取一手货源降低成本?”共赢者·2024春季大件跨境节暨大件选品采购对接会将是您不容错过的机会!- 扫码报名 -▼卖家选品报名工厂参会报名- 活动简介 -▼过去十年,海比在服务众多工厂与卖家的过程中,发现供应链与卖家之间存在着巨大的鸿沟:好产品走不出去,好卖家找不到品。为此,海比决定搭起一座互利共赢的桥梁,促成买卖双方间长期
Zalando对欧盟在线平台监管费提出质疑
AMZ123获悉,近日,据外媒报道,针对根据数字服务法案(DSA)支付大型在线平台监管费的问题,德国时装电商巨头Zalando向欧盟委员会提出质疑。据了解,DSA法案要求20个超大型在线平台和两个超大型在线搜索引擎支付年度监管费用,费用比例上限为其全球年净收入的0.05%。此外,平台月活用户数量、上一财年盈亏状况也将对费用产生影响。Zalando表示,它不同意欧盟委员会的计算方法,并希望提高收费的
一键查到亚马逊头部的所有卖家
今天给大家分享一个工具: Sellerratings.com这里搜集了各个站点的前2500名店铺并根据过去30天内收到的正面评价数量来进行排名点击Seller的名字就能看到该店铺的介绍以及排名变化情况还有主要的商品信息下面这里还能看到相似卖家,买家们可以利用这个工具来观察学习头部卖家,能够取长补短,把握市场趋势。
亚马逊最近流量暴跌,原因竟然如此离谱…
最近亚马逊卖家集体遭遇流量下滑,订单腰斩的情况,但没单这件事真的是让卖家们头疼,一顿分析,最终竟然找到了很多离谱的原因,看看你们有没有中招!产品被纳入关键词有卖家分享这几天订单直接腰斩,流量急剧下降,甚至在前台使用关键词无法搜到产品,但Asin可以搜到。开Case咨询客服这种异常情况,经过一番调查,原来自己的产品早已被亚马逊悄悄标记上敏感词,把整个店铺直接屏蔽了。虽然自己没有收到任何绩效通知,后台
难!亚马逊运营被一道题淘汰,大龄运营何去何从?
亚马逊大龄运营现状在外界看来,年龄是求职的一道坎,各行各业都越来越吃青春饭,跨境电商行业也不例外。在跨境圈,不少人认为亚马逊运营是一个吃青春饭的岗位,年纪大了之后会很快被更年轻的运营所取代,这一阶段的最后基本上只有三条路可走:当领导,带团队;离职后自己单干;转到其他行业。在各大社交媒体,关于运营30岁考虑转行的话题比比皆是,大家都在问的一个问题是,亚马逊运营30岁后都去哪了?30+的亚马逊运营想要
注意!这个常见的发货操作被亚马逊警告了!大批卖家遭殃
近几天,亚马逊圈迅速传播一则新政绩效问题的消息,引发了众多卖家的关注和讨论。这个绩效通知也让卖家们感到无比惆怅,各项考核政策越来越严格。当然这并不是最可怕的,因为之前很多货件都有类似问题,但是现在“已在配送时段之外送达”会计入货件绩效,这样卖家就很无奈了。01亚马逊发货新政内容截图来源:亚马逊在这则通知中,服务商提醒卖家:今日起亚马逊系统升级,后续将严格执行。卖家后台填写计划入仓的日期,要和物流商
亚马逊新品不测评用广告推起来的步骤
很多亚马逊卖家在推广新品的阶段都会利用测评+站外的手段快速的去把新品推起来,通过测评的手段的确是最快最有效的方法,但是存在一定的风险;今天招单猫跨境给大家分享一个亚马逊新品不用测评用广告推起来的步骤思路,供大家思考和交流~① 推新品注意点一:就是说你在开广告之前,一定得准确的确认你这款品是否被亚马逊收录,怎么知道有没有被收录呢?就是当你选定一款产品后,做手动广告,他会出现很多推荐词,如果推荐词跟你
亚马逊Prime会员订阅数达1.8亿!创下新高
AMZ123获悉,4月17日,据外媒报道,消费者情报研究机构 (Consumer Intelligence Research Partners) 的数据显示,3月份美国亚马逊Prime会员订阅人数创下新高,达到1.8亿,同比增长8%。据了解,最新数据显示,目前75%的美国消费者拥有Prime会员。尽管沃尔玛、TikTok Shop和Temu等电商平台的竞争日益激烈,但亚马逊在快速配送方面的能力仍然
最新专利预警 - 冰格、泳池滤网、滑雪鞋、汽车灯、花园水枪、杯盖、宠物饮水器、酒架、修甲器、沥水篮等
美国专利局16号最新公布了一批正式生效的外观专利,以下专利涉及到一些在跨境电商平台上售卖的产品,如亚马逊、TEMU等。因此,各位卖家朋友们需要警惕可能出现的投诉甚至临时保护令(TRO)的风险。专利号:US D1022781 S专利号:US D1022597 S产品名称:CONTAINER LID专利号:US D1022438 S产品名称:PAIR OF SNOWSHOES专利号:US D10233
一夜醒来订单爆了10倍?浙江跨境大卖卖爆了,估值飙升到5.9亿美元!
大卖接连爆单,订单排到了5月份!出品 | 电商123 作者 | 老柴01亚马逊卖家订单排到了5月一夜之间,杭州跨境大卖订单就暴涨了10倍,最高峰时一天可以接到300个电话,没错订单已经排到了今年5月的大卖Aventon,已经成功挤进了北美E-Bike赛道的第一梯队。当前Aventon在北美市场到底有多么炙手可热?▲图源网络,侵删来自杭州的跨境品牌Aventon旗下包括通勤车Commuter、折
《按摩器行业发展趋势报告》PDF下载
按摩器具分为小型按摩器具和大型按摩器具,其区别主要在于按摩范围是否为身体局部部位。大型按摩器具主要为多功能按摩椅、按摩床垫等可按摩全身类产品小型按摩器具主要包括眼部按摩器、颈部按摩器、足部按摩器等针对特定身体部位的按摩产品。
《AR眼镜深度专题:性价比+轻便+多场景,或有望进入放量阶段》PDF下载
全球 VR 销量已超千万台。根据 VR 陀螺,从 2016 年到 2022 年,全球 VR 头显出货量由 180 万台增至 1014 万台,CAGR 为 33.4%。VR 产品在消费级市场推广较早, 全球龙头品牌 Meta、pico 产品成熟,推动消费者教育加速,当前全球 VR 销量已超千万台,根据 IDC 数据,其中我国 22 年 VR 销量超百万台
《2023年宠物用品行业跨境电商调研报告》PDF下载
具有治愈能力的“宠物经济” 逆流而上,为家中添置宠 物成为许多人休闲放松和情感寄托的重要途径,多国宠 物市场迎来爆发式增长,2022年全球宠物用品市场规模 预计达3,300亿美元,其中美国是最大市场,占比40%
《亚马逊品牌保护报告》PDF下载
28 年前,亚马逊立志成为全球最以客户为中心的公司,而这一使命的关键在于赢得并维持客户的信任。消费者之所以在亚马逊商城购物,是因为相信他们一定会收到正品,无论该商品是亚马逊自营的还是我们数百万第三方卖家销售的,都无一例外。
《2024年电商零售行业春季投资策略:启全球征程,待内需转好》PDF下载
23年是中国供应链和品牌新一轮出海的元年,中国跨境电商出口大幅增长,头部电商平台和零售品牌发力海外业务,实现显著的业绩增长和市场扩张。我们认为24年出海依旧具备广阔成长空间,同时需要关注美国政策风险,并深化全球布局,挖掘欧洲和中东等地区市场潜力。
《2024年中国供应链数字化行业研究》PDF下载
供应链是一个产品从无到有的完整生产过程;供应链管理,即是对供应链“三流”——物流、资金流与信息流的管理,其数字化升级也即对“三流”的改造变革。因此, 我们认为对于供应链数字化问题的分析,可以从“三流”角度出发,并按照两个主要维度进行探究: ① 企业内部和企业外部;② 同一“流”上的价值延伸和不同“流” 之间的交织互动
《电商零售行业跨境电商专题:东南亚新兴市场机会》PDF下载
东南亚数字经济高速发展,电商渗透率持续提升。东南亚数字经济规模近年维持双位数增速,预计 2025 年将达到 2950 亿美元,23-25 年 CAGR 为 16%;其中电商市场规模有望维持亮眼增速,2023 年东南亚电商 GMV 有望达到 1390 亿美元,同比增长 7%,预计 2025 年将达到 1860 亿美元,23-25 年CAGR 为 15.68%。电商渗透率方面,根据 Bain 咨询数据,预计 2025 年东南亚电商渗透率为 6.5%,相对我国 23H1 的 26.43%仍有较大增长空间。
《拉美市场调研分析报告-巴西篇》PDF下载
巴西是拉丁美洲最大的国家,拥有优越的自然条件和人力资源优势,经济发展潜力巨大。2021 年巴西电子商务复合增⻓率为 41%,市场规模达到 1,560 亿美元,电商渗透率为 78%。 预计未来 5 年仍将维持高增长;到 2025 年,整体电子商务市场规模将超过 4,500 亿美元。
跨境学院
跨境电商大小事,尽在跨境学院。
AMZ123跨境电商
专注跨境行业热点事件报道,每日坚持推送原创深度热文
跨境科普达人
科普各种跨境小知识,科普那些你不知道的事...
跨境数据中心
聚合海量跨境数据,输出跨境研究智慧。
AMZ123选品观察员
选品推荐及选品技巧分享。
跨境电商干货集结
跨境电商干货集结,是结合亚马逊跨境电商卖家交流群内大家在交流过程中最常遇到的问题,进行收集整理,汇总解答,将会持续更新大家当前最常遇见的问题。欢迎大家加入跨境电商干货集结卖家交流群一起探讨。
跨境平台资讯
AMZ123旗下跨境电商平台新闻栏目,专注全球跨境电商平台热点事件,为广大卖家提供跨境电商平台最新动态、最热新闻。
欧洲电商资讯
AMZ123旗下欧洲跨境电商新闻栏目,专注欧洲跨境电商热点资讯,为广大卖家提供欧洲跨境电商最新动态、最热新闻。
品类交流群
跨境资料
官方社区
宠物品类交流群
加入
玩具品类交流群
加入
运动户外交流群
加入
立即扫码咨询
立即扫码咨询
立即咨询
官方微信群
官方客服

扫码添加,立即咨询

扫码加群
官方微信群
官方微信群

扫码添加,拉你进群

更多内容
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯