AMZ123跨境卖家导航
拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条文章详情

亚马逊运营必备爬虫知识:使用「Selenium」+「Chromedriver」爬僵尸链接

40589
2018-12-10 19:34
2018-12-10 19:34
40589


      往期有读者朋友提问能否爬「僵尸链接」,肯定是可以的。只有你看不到,没有爬虫爬不了的。


使用本文今天将讲到的「Selenium」+「Chromedriver」就可以轻松完成。本文还是会从环境搭建、查找僵尸链接原理到代码编写一步步来实现这个需求。


Selenium原本是一套完整的web应用程序测试系统,现也用作爬虫。用户可以使用它驱动浏览器,使浏览器按照已编写完成的代码完成相应动作。


Selenium支持驱动Chrome、Firefox、IE等一系列浏览器,在这里我还是选用大家熟悉的Chrome浏览器。



环境搭建步骤:



一、安装Selenium


在上一期已搭建Python环境的前提下打开CMD窗口,输入: pip install selenium」会自动安装selenium,如无报错,且提示安装成功,则成功安装selenium


可以通过以下方式验证是否安装成功并且能正常使用:

CMD窗口中输入python,再输入from selenium import webdriver,敲击回车。如果没有报错,则selenium成功安装且能正常使用。



二、下载Chromedriver


首先从https://www.google.cn/chrome/下载最新版Chrome浏览器,再从http://chromedriver.storage.googleapis.com/index.htm 下载最新版的Chromedriver。


若你已经安装了Chrome浏览器,可根据已安装的Chrome浏览器版本下载对应的Chromedriver版本。附Chrome与Chromedriver的对应关系表:

Chrome浏览器和Chromedriver都下载完成后,将Chrome浏览器安装好,将Chromedriver解压放在自己喜欢的地方待用。



查找原理:


在搜索引擎中使用「site」关键字,可以把搜索范围限定在特定站点中,如site:某某.com。“site:”后面跟的站点域名,不要带“http://”;site:后面带不带www结果可能是不一样的,因为有些域名还包括二级域名,如:site:www.某某.com和site:某某.com,搜索结果就不一样;另外,site:和站点名之间,不要带空格。


我们可以用「site:amazon.com」,只查找在亚马逊网站内的信息。

而一个僵尸链接必有下图特征:


那我们需要构建一个完整的搜索关键字使用Google就可以帮我们找出亚马逊中的僵尸链接。如我需要找「Nike」的僵尸链接,则使用「site:amazon.com Nike Currently unavailable.」使用Google搜索即可。


但其中某些搜索结果,并不是我们想要的僵尸链接。这就需要我们的爬虫去遍历每个搜索结果,并返回正确的僵尸链接。



代码编写:


打开Pycharm,新建项目:

从selenium导入webdriver:

from selenium import webdriver


准备好搜索链接:

url = 'https://www.google.com/search?q=site%EF%BC%9Aamazon.com+Nike+Currently+unavailable.'


        

driver = webdriver.Chrome('C:Program Files (x86)GoogleChromeApplicationchromedriver.exe')
# 在webdriver.Chrome(中填入之前下载好的Chromedrive的路径)
driver.get(url)


        


将自动打开Chrome浏览器并访问:https://www.google.com/search?q=site%EF%BC%9Aamazon.com+Nike+Currently+unavailable.


若浏览器出现「Chrome 正受到自动测试软件的控制。」则表示我们已成功使用selenium驱动Chrome并按照预设访问了Google。


分析Google搜索结果页面,在搜索结果页面按F12。通过分析网页源码,可以看出每个搜索结果都包含在一个class为rc的<div>标签内:


我们可以使用「XPath」来查看是否通过查找所有的class为rc的<div>标签即可找到所有搜索结果。首先下载Chrome插件「XPath Helper」:


在搜索结果页面打开「XPath Helper」,输入「//div[@class='rc']」,显示「RESULTS (20)」及表示有20个class为rc的<div>标签,这与页面中的20个搜索结果相符,这表示可以使用该XPath找出页面中共有多少个搜索结果。



再按照下图分别点击1、2定位某条搜索结果的标题:


在第三步上点击鼠标右键→「Copy」→「Copy XPath」


这里要科普一下,「XPath」是XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。使用XPath我们可以准确定位页面中某个元素的位置。


多拷贝几个搜索结果的XPath,可以找出其中的规律:

可见只需将XPath略微修改即可准确定位每个搜索结果的标题,那我们就可以继续敲代码了。


首先查找所有的class为rc的<div>标签,并计算其长度。

all_rc = driver.find_elements_by_xpath("//div[@class='rc']") # 查找所有的class为rc的<div>标签
len_all_rc =
len(all_rc) # len()可计算其长度



根据所有的class为rc的<div>标签的长度,生成新的XPath并定位、点击,即跳转至亚马逊商品页面。

# for X in range () 是前开后闭,所以需要len_all_rc + 1 才能循环len_all_rc次。
for i in range(1, len_all_rc + 1):
    # 拼接新的XPath
xpath = "//*[@id='rso']/div/div/div["+str(i)+"]/div/div/h3/a"
# 根据XPath定位搜索结果的标题,并点击
   
driver.find_element_by_xpath(xpath).click()


                   

返回亚马逊商品页面源码。

pageSource = driver.page_source



如果“Currently unavailable.”在页面源码中,即可确定是为僵尸链接。则在控制台打印该商品链接。

if 'Currently unavailable.' in pageSource:
   
print(driver.current_url)


                  

完成一次循环后,需要退回到Google搜索界面,下次一循环才能正确进行。

driver.back()



完成一页搜索结果筛选后,需要点击搜索结果页面的下一页继续筛选,直到无新的搜索结果为止。

# 定位下一页的按钮
next_button = driver.find_element_by_xpath('//*[@id="pnnext"]/span[2]')
# 如果下一页按钮存在
if next_button:
     # 这定位下一页按钮并点击
    driver.find_element_by_xpath(
'//*[@id="pnnext"]/span[2]').click()
# 否则退出循环、结束程序。
else:
   
break




以上便是使用「Selenium」+「Chromedriver」从环境搭建、查找链接原理到代码编写来实现爬取僵尸链接的全部过程。其完整代码为:

from selenium import webdriver

url =
'https://www.google.com/search?q=site%EF%BC%9Aamazon.com+Nike+Currently+unavailable.'
driver = webdriver.Chrome('C:Program Files (x86)GoogleChromeApplicationchromedriver.exe')
driver.maximize_window()
driver.get(url)
while True:
    all_rc = driver.find_elements_by_xpath(
"//div[@class='rc']")
    len_all_rc =
len(all_rc)
   
for i in range(1, len_all_rc + 1):
        xpath =
"//*[@id='rso']/div/div/div["+str(i)+"]/div/div/h3/a"
       
driver.find_element_by_xpath(xpath).click()
        pageSource = driver.page_source
       
if 'Currently unavailable.' in pageSource:
           
print(driver.current_url)
        driver.back()
    next_button = driver.find_element_by_xpath(
'//*[@id="pnnext"]/span[2]')
   
if next_button:
        driver.find_element_by_xpath(
'//*[@id="pnnext"]/span[2]').click()
   
else:
       
break



我的这篇文章只是简单的介绍了selenium + webdriver的使用,当然你也可以结合「Requests」+「bs4」爬取每个僵尸链接对应商品的Asin、标题、品牌、star、review等,并保存到文件中方便筛选你中意的僵尸。


 如图:


End


【物流福利】



不过瘾?重磅加推亚马逊全球开店峰会整点惊喜!

一周爆闻 | 正式征收20%广告增值税;Review政策更新;

你有一份撩人的A2Z申诉技巧未领取!

旺季期间,你应该算清楚亚马逊运营中的每笔帐!




免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签
沃尔玛推出新供应链策略“预付整合”,提升配送效率
沃尔玛推出一项新的供应链策略“Prepaid Consolidation(预付整合)”,旨在通过简化供应商入库物流流程,加快商品从供应端到门店及消费者的流转速度,同时降低整体运营成本,并进一步提升库存稳定性与服务效率。
eBay英国站将实施P&A品类30天免费退货及运费补贴
2026年6月8日起,eBay将在英国站点对符合条件的Parts & Accessories(P&A)商品实施新规,符合要求的商品将必须提供至少30天的免费退货服务和50%退货运费补贴机制。
2个月营收300万美元,TikTok直播拍卖正批量造富
撕开年中流量困局,TikTok开卷直播拍卖
Allegro进军乌克兰市场
波兰电商平台Allegro正计划进入乌克兰市场,并在分阶段推进其跨境电商布局。该项目将首先在2026年6月启动第一阶段。
多类目利润缩水,卖家打法大变天
跨境电商行业,近年来正在陷入“规模向上、利润向下”的怪圈。根据Marketplace Pulse的数据,2026年受调的年收入超20亿美元的181家电商平台卖家中,有高达69%的卖家利润表现不佳,其中有38.1%的卖家收入、利润双双下滑,同时还有30.9%的卖家收入虽有所增长,但利润率却停滞不前、甚至有所下降。图源:Marketplace Pulse在行业整体利润走低的背景下,亚马逊美国站多个核心类目的卖家也都感受到了经营压力。从家居厨房到办公用品,再到玩具品类,“盈利难”已成为诸多跨境卖家面临的共同挑战。
卖家达2.1万,TikTok Shop成西班牙第16大电商平台
数据显示,在2025年11月至2026年4月期间,TikTok Shop平台累计吸引约21,000家本地卖家入驻。
亚马逊品牌推广,如何创建个性化图片素材
亚马逊搜索结果页的注意力竞争已进入毫秒级,用户单次浏览搜索结果的平均停留时间不足3秒。在这一极短时间内,文字信息几乎无法被有效接收,图片素材成为决定用户是否点击广告的唯一决定性因素。多数卖家仍依赖产品白底图作为广告素材,导致广告在同质化的搜索结果中被淹没,点击率长期低于行业平均水平。本文基于亚马逊平台品牌推广广告的投放数据,从视觉设计、内容构建、优化三个维度,提供可直接复用的个性化图片素材创建方法,帮助卖家系统性提升广告点击率与销售额。一、图片素材对广告效果的决定性影响亚马逊品牌推广广告的展示位置集中在搜索结果页顶部与中部,同一页面通常会同时展示4-6组广告素材。
Etsy将实施儿童产品新规,新增多项禁售与安全要求
Etsy最新的“儿童与婴幼儿产品政策”将于2026年6月2日正式生效。该政策旨在进一步强化平台对儿童相关商品的安全管理,并明确部分儿童产品的禁售范围。
流量更贵、转化更难,亚马逊卖家2026全面承压
Jungle Scout发布了《2026年亚马逊基准测试报告》,报告系统性分析了2024年1月1日至2025年12月31日亚马逊美国站整体市场表现与2026年竞争环境,重点围绕美妆个护等品类洞察、竞争格局、广告与转化表现等维度展开。
亚马逊推出新品推荐标签,帮助卖家获取更多曝光
亚马逊将为平台上的部分新品自动添加“New Arrival(新品到货)”或“Notable Arrival(值得关注的新品)”徽章,以帮助消费者更容易发现新上架商品,同时提升新品的曝光度和前期销量表现。
靠“站外 2.0”,亚马逊亿级大卖实现百万美金增量!
ACOS狂飙之下,出海大卖为何转向站外联盟?
2026亚马逊Prime Day定档6月,最后27天运营冲刺手册
Prime Day仅剩27天,促销规则和费用模式全面翻新。本文拆解促销优选、广告分层、库存风控和利润守护四大模块,助你精算每一分钱。
28天卖了50万,中式菜刀在TikTok美区太好赚了!
中国菜刀在TikTok火了,跨境卖家靠其入账上百万
存跌落风险,美国CPSC紧急召回亚马逊在售儿童餐椅
美国消费品安全委员会宣布召回PandaEar品牌两款便携式挂桌儿童餐椅,原因是产品存在严重跌落风险,可能导致婴儿受伤甚至死亡。此次召回涉及约9700件产品,召回日期为2026年5月21日。
运营风向标!亚马逊7大核心品类洞察
本文章为Jungle Scout《2026年亚马逊基准测试报告》下半部分,主要内容为2024年1月1日至2025年12月31日亚马逊美国站,厨房、庭院、办公用品、宠物用品、运动户外、家装改进、玩具与游戏七个核心品类亚马逊市场分析;2026年卖家运营建议。
“多功能”护肤彩妆受欢迎,85%消费者开始关注成分
GlobalData发布的报告显示,将护肤与彩妆结合的“混合美妆”正在全球范围内快速升温。随着消费者开始追求更简单、更高效的个人护理流程,多功能产品正在成为越来越多消费者的新选择。
AMZ123《全球电商市场报告——俄罗斯篇》
全球格局也在分化。新兴市场依靠渗透率提升释放空间,成熟市场则在消费习惯与渠道格局的更迭中重塑增长逻辑。社交化购物、价格敏感度提升、平台多元化交织,使用户行为与市场秩序进入重构周期。
《美国电商领域美妆行业现状》PDF下载
“2025 年是护肤品风靡市场的一年。从去角质产品、精华液到红光美妆仪和韩式美妆热潮,所有人都热衷于追求有光泽的肌肤。消费者希望拥有真正有效的产品,而且喜欢在购买前先试用迷你装或套装。与此同时,A 正在悄然主导一切。
《韩国电商市场数据月报》PDF下载
韩国拥有全球第五大电子商务市场,2024年电商销售额超过千亿美元,预计到2026年将超过1600亿美元。这种快速增长主要得益于韩国高达97%的互联网普及率和对5G技术的早期采用。韩国消费者的购物习惯正迅速向线上转移,2023年线上购买已占总销售额的50.5%。此外,中韩自由贸易协定的签订进一步促进了两国之间的贸易合作,降低了关税壁垒,为中国品牌出海进入韩国市场创造了有利条件。
《出海中东指南》PDF下载
2025年开年以来,美国关税政策持续收紧,中美贸易关系的不确定性加剧,依赖美国市场的中国跨境卖家面临利润压缩与合规风险的双重挑战。在中美贸易摩擦持续深化的背景下,中东电商市场正成为跨境卖家多元化布局的战略要地。
《TikTok Shop 2024-2025西班牙站点报告》PDF下载
在全球社交电商高速发展的时代浪潮中,TikTok已然崛起为品牌与消费者深度互动的重要阵地。TikTok不仅重塑了用户的消费习惯,更开创了"发现式购物"的新模式,为品牌营销带来了前所未有的机遇与挑战
《2026全球女士内衣市场洞察白皮书》PDF下载
全球女士内衣市场正经历从基础功能型向场景驱动型的深刻变革。消费者需求持续向舒适性、功能细分及情感价值融合演变,推动品类创新与市场扩容。传统内衣巨头增长承压,以科技创新为核心的新兴品牌快速崛起,行业竞争格局加速重构。供应链向区域化与敏捷化调整,舒适革新、工艺创新、智能应用与可持续发展成为产品升级与品牌差异化的关键路径。
《TikTok Shop 2026 东南亚跨境出海经营白皮书2.0》PDF下载
在全球电商市场,TikTokShop正展现出强劲的发展活力。依托多场域电商经营模式,众多商家实现了业务的快速增长。白皮书系列依托于系统性梳理成功商家的实践经验与运营策略,希望助力更多商家高效入局,实现可持续发展。
《美客多墨西哥市场趋势洞察》PDF下载
美客多远不止是一个电商平台。这里映射着数百万墨西哥消费者的潮流趋势、喜好变化和日常消费选择。
亚马逊公告
AMZ123旗下亚马逊公告发布平台,实时更新亚马逊最新公告,致力打造最及时和有态度的亚马逊公告栏目!
AMZ123会员
「AMZ123会员」为出海者推出的一站式私享服务
跨境数据中心
聚合海量跨境数据,输出跨境研究智慧。
AMZ123选品观察员
选品推荐及选品技巧分享。
AMZ123卖家导航
这个人很懒,还没有自我介绍
跨境平台资讯
AMZ123旗下跨境电商平台新闻栏目,专注全球跨境电商平台热点事件,为广大卖家提供跨境电商平台最新动态、最热新闻。
跨境电商赢商荟
跨境电商行业唯一一家一年365天不断更的媒体!
亿邦动力网
消除一切电商知识鸿沟,每日发布独家重磅新闻。
首页
跨境头条
文章详情
咨询
官方微信群
官方客服

扫码添加,立即咨询

加群
官方微信群
官方微信群

扫码添加,拉你进群

更多
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯

回顶部