拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条正文

亚马逊运营必备爬虫知识:使用「Selenium」+「Chromedriver」爬僵尸链接

跨境电商一站式服务平台,只做靠谱的跨境电商培训.
36160
2018-12-10 19:34


      往期有读者朋友提问能否爬「僵尸链接」,肯定是可以的。只有你看不到,没有爬虫爬不了的。


使用本文今天将讲到的「Selenium」+「Chromedriver」就可以轻松完成。本文还是会从环境搭建、查找僵尸链接原理到代码编写一步步来实现这个需求。


Selenium原本是一套完整的web应用程序测试系统,现也用作爬虫。用户可以使用它驱动浏览器,使浏览器按照已编写完成的代码完成相应动作。


Selenium支持驱动Chrome、Firefox、IE等一系列浏览器,在这里我还是选用大家熟悉的Chrome浏览器。



环境搭建步骤:



一、安装Selenium


在上一期已搭建Python环境的前提下打开CMD窗口,输入: pip install selenium」会自动安装selenium,如无报错,且提示安装成功,则成功安装selenium


可以通过以下方式验证是否安装成功并且能正常使用:

CMD窗口中输入python,再输入from selenium import webdriver,敲击回车。如果没有报错,则selenium成功安装且能正常使用。



二、下载Chromedriver


首先从https://www.google.cn/chrome/下载最新版Chrome浏览器,再从http://chromedriver.storage.googleapis.com/index.htm 下载最新版的Chromedriver。


若你已经安装了Chrome浏览器,可根据已安装的Chrome浏览器版本下载对应的Chromedriver版本。附Chrome与Chromedriver的对应关系表:

Chrome浏览器和Chromedriver都下载完成后,将Chrome浏览器安装好,将Chromedriver解压放在自己喜欢的地方待用。



查找原理:


在搜索引擎中使用「site」关键字,可以把搜索范围限定在特定站点中,如site:某某.com。“site:”后面跟的站点域名,不要带“http://”;site:后面带不带www结果可能是不一样的,因为有些域名还包括二级域名,如:site:www.某某.com和site:某某.com,搜索结果就不一样;另外,site:和站点名之间,不要带空格。


我们可以用「site:amazon.com」,只查找在亚马逊网站内的信息。

而一个僵尸链接必有下图特征:


那我们需要构建一个完整的搜索关键字使用Google就可以帮我们找出亚马逊中的僵尸链接。如我需要找「Nike」的僵尸链接,则使用「site:amazon.com Nike Currently unavailable.」使用Google搜索即可。


但其中某些搜索结果,并不是我们想要的僵尸链接。这就需要我们的爬虫去遍历每个搜索结果,并返回正确的僵尸链接。



代码编写:


打开Pycharm,新建项目:

从selenium导入webdriver:

from selenium import webdriver


准备好搜索链接:

url = 'https://www.google.com/search?q=site%EF%BC%9Aamazon.com+Nike+Currently+unavailable.'


        

driver = webdriver.Chrome('C:Program Files (x86)GoogleChromeApplicationchromedriver.exe')
# 在webdriver.Chrome(中填入之前下载好的Chromedrive的路径)
driver.get(url)


        


将自动打开Chrome浏览器并访问:https://www.google.com/search?q=site%EF%BC%9Aamazon.com+Nike+Currently+unavailable.


若浏览器出现「Chrome 正受到自动测试软件的控制。」则表示我们已成功使用selenium驱动Chrome并按照预设访问了Google。


分析Google搜索结果页面,在搜索结果页面按F12。通过分析网页源码,可以看出每个搜索结果都包含在一个class为rc的<div>标签内:


我们可以使用「XPath」来查看是否通过查找所有的class为rc的<div>标签即可找到所有搜索结果。首先下载Chrome插件「XPath Helper」:


在搜索结果页面打开「XPath Helper」,输入「//div[@class='rc']」,显示「RESULTS (20)」及表示有20个class为rc的<div>标签,这与页面中的20个搜索结果相符,这表示可以使用该XPath找出页面中共有多少个搜索结果。



再按照下图分别点击1、2定位某条搜索结果的标题:


在第三步上点击鼠标右键→「Copy」→「Copy XPath」


这里要科普一下,「XPath」是XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。使用XPath我们可以准确定位页面中某个元素的位置。


多拷贝几个搜索结果的XPath,可以找出其中的规律:

可见只需将XPath略微修改即可准确定位每个搜索结果的标题,那我们就可以继续敲代码了。


首先查找所有的class为rc的<div>标签,并计算其长度。

all_rc = driver.find_elements_by_xpath("//div[@class='rc']") # 查找所有的class为rc的<div>标签
len_all_rc =
len(all_rc) # len()可计算其长度



根据所有的class为rc的<div>标签的长度,生成新的XPath并定位、点击,即跳转至亚马逊商品页面。

# for X in range () 是前开后闭,所以需要len_all_rc + 1 才能循环len_all_rc次。
for i in range(1, len_all_rc + 1):
    # 拼接新的XPath
xpath = "//*[@id='rso']/div/div/div["+str(i)+"]/div/div/h3/a"
# 根据XPath定位搜索结果的标题,并点击
   
driver.find_element_by_xpath(xpath).click()


                   

返回亚马逊商品页面源码。

pageSource = driver.page_source



如果“Currently unavailable.”在页面源码中,即可确定是为僵尸链接。则在控制台打印该商品链接。

if 'Currently unavailable.' in pageSource:
   
print(driver.current_url)


                  

完成一次循环后,需要退回到Google搜索界面,下次一循环才能正确进行。

driver.back()



完成一页搜索结果筛选后,需要点击搜索结果页面的下一页继续筛选,直到无新的搜索结果为止。

# 定位下一页的按钮
next_button = driver.find_element_by_xpath('//*[@id="pnnext"]/span[2]')
# 如果下一页按钮存在
if next_button:
     # 这定位下一页按钮并点击
    driver.find_element_by_xpath(
'//*[@id="pnnext"]/span[2]').click()
# 否则退出循环、结束程序。
else:
   
break




以上便是使用「Selenium」+「Chromedriver」从环境搭建、查找链接原理到代码编写来实现爬取僵尸链接的全部过程。其完整代码为:

from selenium import webdriver

url =
'https://www.google.com/search?q=site%EF%BC%9Aamazon.com+Nike+Currently+unavailable.'
driver = webdriver.Chrome('C:Program Files (x86)GoogleChromeApplicationchromedriver.exe')
driver.maximize_window()
driver.get(url)
while True:
    all_rc = driver.find_elements_by_xpath(
"//div[@class='rc']")
    len_all_rc =
len(all_rc)
   
for i in range(1, len_all_rc + 1):
        xpath =
"//*[@id='rso']/div/div/div["+str(i)+"]/div/div/h3/a"
       
driver.find_element_by_xpath(xpath).click()
        pageSource = driver.page_source
       
if 'Currently unavailable.' in pageSource:
           
print(driver.current_url)
        driver.back()
    next_button = driver.find_element_by_xpath(
'//*[@id="pnnext"]/span[2]')
   
if next_button:
        driver.find_element_by_xpath(
'//*[@id="pnnext"]/span[2]').click()
   
else:
       
break



我的这篇文章只是简单的介绍了selenium + webdriver的使用,当然你也可以结合「Requests」+「bs4」爬取每个僵尸链接对应商品的Asin、标题、品牌、star、review等,并保存到文件中方便筛选你中意的僵尸。


 如图:


End


【物流福利】



不过瘾?重磅加推亚马逊全球开店峰会整点惊喜!

一周爆闻 | 正式征收20%广告增值税;Review政策更新;

你有一份撩人的A2Z申诉技巧未领取!

旺季期间,你应该算清楚亚马逊运营中的每笔帐!




AMZ123跨境卖家导航旗下公众号【AMZ123跨境电商】深耕跨境行业,专注热点报道。
扫描右边二维码,关注后回复【加群】,加入优质卖家交流群~
目前30W+卖家关注我们
二维码
免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签问答
TikTok Shop对个体户开放?TikTok卖家靠一个爆品,年爆单2000万美元!
TikTok Shop卖家靠塑身泳衣爆单2000万美元!出品 | 电商123 作者 | 老柴TikTok塑身泳衣卖家1年卖了2000万美元电商123获悉,随着全球泳衣市场消费火爆,明年全球泳衣市场将增长到近300亿美元,也让最近一家TikTok Shop泳衣卖家凭借其打造的收腹紧身泳衣爆款单品在一年里拿下了20000万美元营收成绩。目前泳衣已经成为欧美女性夏日必备消耗品,且全球各类泳衣的消费需
离了个大谱?对华征收高关税后,美国又禁止26个中国卖家进入!
美国又禁止26个中国卖家进入美国市场!出品 | 电商123 作者 | 老柴对华高额关税将冲击美国经济电商123获悉,就在美国白宫5月14日宣布将对包括电动车、芯片、医疗产品在内的一系列中国商品征收新的关税,其中对中国进口电动车的加征的关税已调整到100%后,将经贸问题政治化的301关税受到了全球诟病,也将对接下来的美国经济复苏和降低通胀产生深远影响。对此,白宫国家经济委员会委员长表示,中国产业
挂钩到底被注册了多少个专利?这款双头挂钩加入维权队伍!
继旋转挂钩(24-cv-01841)、手袋挂钩(23-cv-2000)维权后,挂钩家族再添一员!01DOUBLE HOOK双头挂钩原告是我国东莞某贸易公司,主要在eBay和亚马逊等海外平台经营店铺,旗下有一款挂钩产品,可以给CPAP呼吸机用户支撑软管和收纳呼吸面罩。原告在5月16日向法院提交TRO禁令。案件信息:起诉时间:2024年5月15日案件号:24-cv-03956代理律所:Sherinia
速卖通Choice业务增长强劲!助力阿里国际营收大增45%
AMZ123获悉,日前,阿里巴巴发布了2024财年第四季度及全年的业绩报告。报告显示,阿里巴巴国际业务增长显著,在速卖通Choice业务推动下大幅增长45%。财报数据显示,2024财年第四季度,阿里巴巴集团收入达2218.74亿元,同比增长6.6%。整个2024年财年,阿里巴巴集团收入达9411.68亿元,同比增长8%。调整后EBITA为1650.28亿元,同比增长12%,增长趋势强劲。在各项业务
亚马逊多站点新增收费,10月1日生效!
昨日,近期被传得沸沸扬扬的亚马逊变体违规审查风波出现了反转:大批因违规变体而被封的账号已开始自动恢复。对此,不少卖家都感到十分惊喜。 然而,一波未平一波又起。除变体违规审查风波外,近日亚马逊卖家的购物车也频出意外。AMZ123获悉,近日,大量亚马逊卖家在售FBA链接丢失了购物车,无法正常销售。 其中,除部分卖家是因此前绩效问题遭到亚马逊秋后算账外,另一部分卖家则是在没有任何异常——绩效正常、账户正
离谱!又是Keith的版权画以及GBC新代理九寸钉乐队商标维权案!
Laura Annette Zollar 版权画24-cv-3954/3959 Laura Annette Zollar 版权画Laura Annette ZollarKeith品牌介绍原告Laura Annette Zollar是一位艺术家,他创作的绘画融合了狂野、神秘、形而上学和鼓舞人心的主题。他的作品讲述了关于悲伤、快乐、遗憾、愤怒、爱、力量和其他构成生活的潮起潮落的情感的故事。她利用原型的
Wildberries被FAS警告后优化卖家违约条款
AMZ123获悉,5月16日,据外媒报道,俄罗斯电商平台Wildberries对卖家的工作条件和罚款制度进行了简化。上月,联邦反垄断局(FAS)因Wildberries对卖家施加不利工作条件向其发出警告,并责令其整改。2023年,Wildberries通过卖家罚款和违约金获得了149亿卢布的收入,相较2022年增加了76%。在FAS的监督和推动下,Wildberries减少了不合理的罚款和处罚,并
独立站的落地页如何提高转化率
当我们说落地页的时候,你脑海里第一反应是什么?首页,产品页面,博客页面还是什么?不管我们做Google SEO还是投放谷歌广告,优化落地页是我们工作的重中之重。落地页的质量跟我们流量转化率直接挂钩。今天就给大家分享下关于落地页优化的内容。一,什么是落地页/landing page简单点说,落地页就是用户通过谷歌SEO或者广告链接访问你的网站的那个页面。这个页面可以是你的homepage,produ
“电脑遮光罩”在美国市场的(发明专利)侵权预警及规避办法668
在美国市场,以亚马逊美国站为例,下图所示产品为一种“电脑遮光罩”,用于类似笔记本电脑在室外使用时的光遮蔽和隐私遮挡:在美国市场有对应发明专利,其技术方案概述如下:本发明涉及用于电子设备屏幕的光遮罩及私密遮罩。用于电子设备屏幕的可折叠光遮罩及私密遮罩板特别适用于膝上型计算机、电子平板电脑和设备。光和私密遮罩由三个半刚性面板构成,其表面中集成了四个模制的塑料和橡胶夹。三个面板之间的区域形成灵活的铰链,
亚马逊上很多细节可以提升转化率
只要是亚马逊卖家,相信没有人不想提升链接的转化率吧。转化率提升意味着更多的潜在客户成功转化为实际购买者,也就有更多的产品订单。同时远超同行的转化率有助于在同类商品中脱颖而出,获得更好的排名从而吸引更多消费者关注和购买。这就是亚马逊的核心飞轮理论的一部分。今天聊一聊如何从A+细节做到位提升链接转化率。申明:如下细节都是小玩意,不能改变产品本身转化率,只能说不需要额外投入的情况下尽量优化有助于提高转化
亚马逊、eBay、Etsy平台最新TOP100卖家名单出炉!
AMZ123获悉,5月15日,Marketplace Pulse发布了亚马逊、eBay和Etsy三个平台TOP100卖家名单。据了解,该名单根据过去30天内卖家收到的积极评价数量来排名,排名后的箭头指明较上月出现的变化。在亚马逊美国站点TOP100卖家榜单中,有82位来自美国,14位来自中国,1位来自中国香港,1位来自德国。在eBay全球TOP100卖家榜单中,英国卖家居多,在前100位卖家中占3
亚马逊广告100问,你想知道的都在这里!!
今天分享几份不错的亚马逊资料,需要完整版,可以在文章底下获取。亚马逊广告—各类常见问答100合集针对不同广告目的的广告打法亚马逊关键词的获取与关键词矩阵攻略
你上榜了吗?5月份亚马逊Top100卖家榜出炉,中国这15个大卖上榜!
亚马逊5月份Top100卖家榜单新鲜出炉!出品 | 电商123 作者 | 老柴中国15个大卖上榜亚马逊Top100卖家榜电商123获悉,基于Marketplace Pulse数据,并根据过去30天内卖家收到的积极评价数量来排名的,目前Amazon、eBay、Etsy等电商平台TOP100卖家名单均已经新鲜出炉,这里电商123终点给大家解读下5月亚马逊平台的Top100榜单情况。▲图源网络,侵删
二十多款最新下证专利,很多常见款式,注意规避
美国专利局最新公布了一批正式生效的外观专利,以下(超级多)专利涉及到一些在跨境电商平台上售卖的产品,如亚马逊、TEMU等。因此,各位卖家朋友们需要警惕可能出现的投诉甚至临时保护令(TRO)的风险。US D1026662 SFLEXIBLE POUCH(软质袋)US D1026637 SCLAMP(夹钳)PET CAGE(宠物笼)US D1027317 SDISH RACK(碗碟架)US D1027
连番"惊吓"?违规变体扫号没完,大批亚马逊卖家购物车被"吃掉"!
大批亚马逊卖家购物车被"吃掉"了!出品 | 电商123 作者 | 老柴又一波亚马逊卖家购物车批量丢失电商123获悉,5月11日的亚马逊违规变体大扫号风波让不少卖家账号被停用或者封禁,就在大家还处于亚马逊违规变体扫号将持续到今年12月的紧张情绪中时,不按常理出牌的亚马逊又直接给平台卖家带来了又一轮惊吓,那就是这几天不少卖家反馈称自己亚马逊产品的购物车遭批量丢失。那么亚马逊卖家的产品Listing
错贴标签!跨境大卖惨遭罚款2000万
合规卖货是跨境市场不变的底色,但在高额利益面前,总有卖家铤而走险,顶风作案。近日,FTC就开出了一张可能是这个机构史上最大的巨额罚单!亚马逊家居大卖Williams-Sonoma被要求罚款317万美元,原因就是其在包装标签的虚假宣传。亚马逊大卖被美国巨罚2297万元近日,美国联邦贸易委员会(FTC)的官网上报道了一起巨额罚款事件。亚马逊头部跨境大卖——美国高端家居用品零售商Williams-Son
《市场报告-隐形文胸(胸贴)》PDF下载
隐形文胸(又称粘性文胸,后简称胸贴),一种特殊设计的内衣,没有肩带和紧身设计,通过胶粘剂或胶水在胸部周围粘附,提供支撑和提升效果。材质主要有医用胶、连体服胶和硅胶三类
《2024年第1季度全球宏观经济季度报告》PDF下载
1季度,中国外部经济综合CEEM-PMMI指数季度低于荣枯线。美国经济继续扩张,美国经济继续扩张,欧洲经济双速复苏,日本经济运行大势稳定。印度经济继续强劲增长,巴西经济继续缓慢复苏,南非复苏态势疲弱,俄罗斯经济延续短期韧性。东盟六国和韩国金融市场呈现汇率相对较弱、股票市场整体表现较强的格局。
《2023年东南亚经贸简报-增长放缓旅游回升,汽车和资源贸易活跃》PDF下载
2023 年东南亚六国的宏观经济增速较上年有所放缓。菲律宾经济增长最为强劲,印度尼西亚制造业景气上升,越南消费表现强劲,马来西亚消费增长区域内第一,新加坡经济增长表现不错,泰国经济增长最为疲弱。
《跨境电商行业深度研究报告:短跑至长跑,跨境出海提速》PDF下载
海外头部跨境电商平台实力犹在,频频发力新兴市场。国际 B2C 跨境电商平台主要有 Amazon、eBay、Wish等。据Statista数据,在多位玩家集聚的美国市场,亚马逊以37.6%的绝对优势稳居市场份额第一,领先其他平台。
《2024全球可持续美妆的创新与革命》PDF下载
可持续美妆是企业积极担负社会责任的体现。品牌通过联合成立可持续联盟,构建评分系统等方式,在行业内推广各种可持续标准,共同努力构建一个更加绿色、透明的美妆世界。
《2023年全球应用广告变现趋势报告》PDF下载
从地区上来看,美国仍然是应用品类需要持续深挖的地区,持续上升的下载量、一路走高的 eCPM 为开发者提供源源不断的机会。尤其在工具与效率、小说与阅读品类上表现优异,不仅下载同比提升了10%,二者的广告收益也名列前茅。
《跨境境市场家居、园艺类目数据调研报告》PDF下载
全球家饰市场稳步增长(近5年4.9%的年复合增长率),预计2025年,全球规模将成长至1200亿美金;其中美国家饰市场占全球25%,欧洲占20%。
《亚马逊2022中国跨境电商产业集群白皮书》PDF下载
全球 2022 年经济增长放缓,部分品类消费需求减弱,国际化生产和贸易要素成本持续上升,压缩出口企业的利润空间;全球疫情对产业链供应链稳定带来一定影响,出口企业业绩承压。在当今世界经济环境充满不确定性的情况下,中国外贸出口和跨境电商行业展现出极强的韧性,保持着稳定发展态势。
跨境科普达人
科普各种跨境小知识,科普那些你不知道的事...
亿邦动力网
消除一切电商知识鸿沟,每日发布独家重磅新闻。
亚马逊公告
AMZ123旗下亚马逊公告发布平台,实时更新亚马逊最新公告,致力打造最及时和有态度的亚马逊公告栏目!
AMZ123选品观察员
选品推荐及选品技巧分享。
跨境学院
跨境电商大小事,尽在跨境学院。
跨境数据中心
聚合海量跨境数据,输出跨境研究智慧。
亚马逊资讯
AMZ123旗下亚马逊资讯发布平台,专注亚马逊全球热点事件,为广大卖家提供亚马逊最新动态、最热新闻。
亚马逊全球开店
亚马逊全球开店官方公众号,致力于为中国跨境卖家提供最新,最全亚马逊全球开店资讯,运营干货分享及开店支持。
品类交流群
跨境资料
官方社区
宠物品类交流群
加入
玩具品类交流群
加入
运动户外交流群
加入
立即扫码咨询
立即扫码咨询
立即咨询
官方微信群
官方客服

扫码添加,立即咨询

扫码加群
官方微信群
官方微信群

扫码添加,拉你进群

更多内容
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯