亚马逊运营必备爬虫知识：使用「Selenium」+「Chromedriver」爬僵尸链接

黑五电商

41000

2018-12-10 19:34

41000

黑五电商

往期有读者朋友提问能否爬「僵尸链接」，肯定是可以的。只有你看不到，没有爬虫爬不了的。

使用本文今天将讲到的「Selenium」+「Chromedriver」就可以轻松完成。本文还是会从环境搭建、查找僵尸链接原理到代码编写一步步来实现这个需求。

Selenium原本是一套完整的web应用程序测试系统，现也用作爬虫。用户可以使用它驱动浏览器，使浏览器按照已编写完成的代码完成相应动作。

Selenium支持驱动Chrome、Firefox、IE等一系列浏览器，在这里我还是选用大家熟悉的Chrome浏览器。

环境搭建步骤：

一、安装Selenium：

在上一期已搭建Python环境的前提下打开CMD窗口，输入: 「pip install selenium」会自动安装selenium，如无报错，且提示安装成功，则成功安装selenium。

可以通过以下方式验证是否安装成功并且能正常使用：

在CMD窗口中输入python，再输入from selenium import webdriver，敲击回车。如果没有报错，则selenium成功安装且能正常使用。

二、下载Chromedriver：

首先从https://www.google.cn/chrome/下载最新版Chrome浏览器，再从http://chromedriver.storage.googleapis.com/index.htm 下载最新版的Chromedriver。

若你已经安装了Chrome浏览器，可根据已安装的Chrome浏览器版本下载对应的Chromedriver版本。附Chrome与Chromedriver的对应关系表：

在Chrome浏览器和Chromedriver都下载完成后，将Chrome浏览器安装好，将Chromedriver解压放在自己喜欢的地方待用。

查找原理：

在搜索引擎中使用「site」关键字，可以把搜索范围限定在特定站点中，如site：某某.com。“site:”后面跟的站点域名，不要带“http://”；site:后面带不带www结果可能是不一样的，因为有些域名还包括二级域名，如：site:www.某某.com和site:某某.com,搜索结果就不一样；另外，site:和站点名之间，不要带空格。

我们可以用「site：amazon.com」,只查找在亚马逊网站内的信息。

而一个僵尸链接必有下图特征：

那我们需要构建一个完整的搜索关键字使用Google就可以帮我们找出亚马逊中的僵尸链接。如我需要找「Nike」的僵尸链接，则使用「site：amazon.com Nike Currently unavailable.」使用Google搜索即可。

但其中某些搜索结果，并不是我们想要的僵尸链接。这就需要我们的爬虫去遍历每个搜索结果，并返回正确的僵尸链接。

代码编写：

打开Pycharm，新建项目：

从selenium导入webdriver：

from selenium import webdriver

准备好搜索链接：

url = 'https://www.google.com/search?q=site%EF%BC%9Aamazon.com+Nike+Currently+unavailable.'

driver = webdriver.Chrome('C:Program Files (x86)GoogleChromeApplicationchromedriver.exe')
 # 在webdriver.Chrome(中填入之前下载好的Chromedrive的路径)

driver.get(url)

将自动打开Chrome浏览器并访问：https://www.google.com/search?q=site%EF%BC%9Aamazon.com+Nike+Currently+unavailable.

若浏览器出现「Chrome 正受到自动测试软件的控制。」则表示我们已成功使用selenium驱动Chrome并按照预设访问了Google。

分析Google搜索结果页面，在搜索结果页面按F12。通过分析网页源码，可以看出每个搜索结果都包含在一个class为rc的<div>标签内：

我们可以使用「XPath」来查看是否通过查找所有的class为rc的<div>标签即可找到所有搜索结果。首先下载Chrome插件「XPath Helper」：

在搜索结果页面打开「XPath Helper」，输入「//div[@class='rc']」，显示「RESULTS (20)」及表示有20个class为rc的<div>标签，这与页面中的20个搜索结果相符，这表示可以使用该XPath找出页面中共有多少个搜索结果。

再按照下图分别点击1、2定位某条搜索结果的标题：

在第三步上点击鼠标右键→「Copy」→「Copy XPath」

这里要科普一下，「XPath」是XML路径语言，它是一种用来确定XML（标准通用标记语言的子集）文档中某部分位置的语言。使用XPath我们可以准确定位页面中某个元素的位置。

多拷贝几个搜索结果的XPath，可以找出其中的规律：

可见只需将XPath略微修改即可准确定位每个搜索结果的标题，那我们就可以继续敲代码了。

首先查找所有的class为rc的<div>标签，并计算其长度。

all_rc = driver.find_elements_by_xpath("//div[@class='rc']") # 查找所有的class为rc的<div>标签
 len_all_rc = len(all_rc) # len()可计算其长度

根据所有的class为rc的<div>标签的长度，生成新的XPath并定位、点击，即跳转至亚马逊商品页面。

# for X in range () 是前开后闭，所以需要len_all_rc + 1 才能循环len_all_rc次。

for i in range(1, len_all_rc + 1):
     # 拼接新的XPath

xpath = "//*[@id='rso']/div/div/div["+str(i)+"]/div/div/h3/a"

# 根据XPath定位搜索结果的标题，并点击
     driver.find_element_by_xpath(xpath).click()

返回亚马逊商品页面源码。

pageSource = driver.page_source

如果“Currently unavailable.”在页面源码中，即可确定是为僵尸链接。则在控制台打印该商品链接。

if 'Currently unavailable.' in pageSource:
     print(driver.current_url)

完成一次循环后，需要退回到Google搜索界面，下次一循环才能正确进行。

driver.back()

完成一页搜索结果筛选后，需要点击搜索结果页面的下一页继续筛选，直到无新的搜索结果为止。

# 定位下一页的按钮

next_button = driver.find_element_by_xpath('//*[@id="pnnext"]/span[2]')

# 如果下一页按钮存在

if next_button:

     # 这定位下一页按钮并点击
     driver.find_element_by_xpath('//*[@id="pnnext"]/span[2]').click()

# 否则退出循环、结束程序。
 else:
     break

▲

以上便是使用「Selenium」+「Chromedriver」从环境搭建、查找链接原理到代码编写来实现爬取僵尸链接的全部过程。其完整代码为：

from selenium import webdriver
 
 url = 'https://www.google.com/search?q=site%EF%BC%9Aamazon.com+Nike+Currently+unavailable.'
 driver = webdriver.Chrome('C:Program Files (x86)GoogleChromeApplicationchromedriver.exe')
 driver.maximize_window()
 driver.get(url)
 while True:
     all_rc = driver.find_elements_by_xpath("//div[@class='rc']")
     len_all_rc = len(all_rc)
     for i in range(1, len_all_rc + 1):
         xpath = "//*[@id='rso']/div/div/div["+str(i)+"]/div/div/h3/a"
         driver.find_element_by_xpath(xpath).click()
         pageSource = driver.page_source
         if 'Currently unavailable.' in pageSource:
             print(driver.current_url)
         driver.back()
     next_button = driver.find_element_by_xpath('//*[@id="pnnext"]/span[2]')
     if next_button:
         driver.find_element_by_xpath('//*[@id="pnnext"]/span[2]').click()
     else:
         break

我的这篇文章只是简单的介绍了selenium + webdriver的使用，当然你也可以结合「Requests」+「bs4」爬取每个僵尸链接对应商品的Asin、标题、品牌、star、review等，并保存到文件中方便筛选你中意的僵尸。

如图：

End

【物流福利】

●不过瘾？重磅加推亚马逊全球开店峰会整点惊喜！

●一周爆闻 | 正式征收20%广告增值税；Review政策更新；

●你有一份撩人的A2Z申诉技巧未领取！

●旺季期间，你应该算清楚亚马逊运营中的每笔帐！

免责声明

本文链接:

本文经作者许可发布在AMZ123跨境头条，如有疑问，请联系客服。

中国卖家新增2站点，新站点知识要点往这儿看

案例|临安中供拍档：为外贸中小企业构建跨境贸易全链路

最新热门报告作者标签

Ozon计划26年新增15个物流中心，投资超300亿卢布

俄罗斯电商平台Ozon表示，2026年计划在俄罗斯新增15个物流综合设施，其中包括大型全流程履约中心以及用于存储和处理大件商品的物流设施。

26年巴西情人节消费达220亿雷亚尔，服饰美妆成热门品类

2026年巴西情人节（Dia dos Namorados）消费超过220亿雷亚尔，服装、化妆品、香水和鞋类成为最受关注的消费品类。

每15秒售出一件，TikTok Shop英国宠物品类快速增长

TikTok Shop公布数据显示，2025年平台宠物护理品类销售额同比增长超过60%，宠物用品正在成为平台增长较快的消费类别之一。在英国市场，TikTok Shop平均每15秒售出一件宠物产品，宠物食品相关内容也持续增加，其中猫粮相关帖子数量超过82.5万条，狗粮相关帖子数量超过57.2万条。

26年1-4月美国玩具市场销售额增长13%，女性成为主力

2026年1月至4月期间，美国玩具行业超过一半的增长来自女性消费者。同时，18岁及以上成年消费者贡献了整个玩具行业35%的增长，成人消费正在成为推动市场扩张的重要因素。

AMZ123会员专享丨7月第2周资讯汇总

亚马逊亚马逊宣布与MyFlexBox达成战略合作，其德国所有智能快递柜将接入亚马逊配送体系，并成为欧洲首个向亚马逊开放的大规模中立柜机网络。用户在结账时可选24/7自提点，提升取件灵活性。合作旨在共建共享末端基础设施，覆盖零售点、加油站等场景，减少重复配送、提高效率。7月6日曝光的官方文件显示，亚马逊在华盛顿州新一轮裁撤57个岗位，涉及多条业务线，其中包含总监、高级经理等中高层管理岗。7月7日，亚马逊宣布，亚马逊全球智能枢纽仓正式落地华东地区，上海、宁波双仓正式启用。这是继GWD深圳首仓全面运营后，亚马逊在完善跨境物流网络上的又一关键布局。

TikTok美区推行三级架构保证金，风险保证金最高$10000

重磅！TikTok美区新增保证金，卖家速查后台

紧急调整！美国CPSC法规给卖家暂时“松绑”了

在跨境电商迈入升级赛道的当下，合规化浪潮正以迅雷不及掩耳之势席卷整个行业。一系列政策法规如同多米诺骨牌般接连落地，逐渐渗透到跨境电商产品质检、税务申报、物流清关等流程。其中在近期讨论热度最高的，莫过于美国最新生效的CPSC法规。进入7月以来，CPSC电子申报（eFiling）新规在业内被高频提及。据业内消息，按原定计划，自7月8日起，美国消费品安全委员会（CPSC）将联合美国海关与边境保护局（CBP）全面施行电子申报（eFiling）新规，所有受CPSC监管的进口消费品需在清关前完成GCC/CPC合格证书电子申报，未按要求申报可能导致清关延误或货件被拒、退运。

TikTok Shop美区保证金大改！金额不再统一，速查后台应缴额！

告别“多类目叠加”，卖家该如何应对？

紧急调整！美国CPSC法规给卖家暂时“松绑”了

AMZ123会员专享丨7月第2周资讯汇总

每15秒售出一件，TikTok Shop英国宠物品类快速增长

26年1-4月美国玩具市场销售额增长13%，女性成为主力

Ozon计划26年新增15个物流中心，投资超300亿卢布

俄罗斯电商平台Ozon表示，2026年计划在俄罗斯新增15个物流综合设施，其中包括大型全流程履约中心以及用于存储和处理大件商品的物流设施。

26年巴西情人节消费达220亿雷亚尔，服饰美妆成热门品类

2026年巴西情人节（Dia dos Namorados）消费超过220亿雷亚尔，服装、化妆品、香水和鞋类成为最受关注的消费品类。

TikTok美区推行三级架构保证金，风险保证金最高$10000

重磅！TikTok美区新增保证金，卖家速查后台

TikTok Shop美区保证金大改！金额不再统一，速查后台应缴额！

告别“多类目叠加”，卖家该如何应对？

《全球宠物行业趋势与中国增长机遇报告》PDF下载

宠物行业全年的销售额为660亿美元与去年同期相比增长了2.1%。

《TikTok Shop 2024-2025 西班牙站点报告》PDF下载

在全球社交电商高速发展的时代浪潮中，TikTok已然崛起为品牌与消费者深度互动的重要阵地。TikTok不仅重塑了用户的消费习惯，更开创了"发现式购物"的新模式，为品牌营销带来了前所未有的机遇与挑战。

《2026年全球电商行业趋势洞察报告》PDF下载

报告深度解读 2026 年全球电商行业发展趋势，全面剖析移动端与网页端市场格局、各区域网站流量增长动态，以及综合电商、服饰电商、美妆电商等核心赛道的细分趋势与头部玩家表现。报告同步收录标杆案例，拆解Nykaa、0live Young、UNIQLO 等区域头部电商的业务亮点、广告策略与用户画像，为品牌制定精准市场策略提供决策参考。

《2026年电子元器件行业趋势与策略解读》PDF下载

据世界半导体贸易统计组织(WSTS)预测报告显示，2025年全球半导体营收将同比增长22.5%至7720亿美元，2026年将再度增长26.3%至9750亿美元，逼近1万亿美元大关;

《2025-Q1亚马逊沃尔玛全球电商CPC数据报告》PDF下载

我们整合了Pacvue和Helium 10的专有数据库，全方位展示行业内范围最广的电商数据。这份报告包括数万家大中小型规模，不同品类广告主的数据，以及几个主要品类的详细分析。

《男装休闲服装品类2026秋冬趋势报告》PDF现在

服装买家高度关注市场趋势，具有高频复购的特点，对趋势品的诉求相对更高，对于新品至少提前2-3个月进行采购且主要通过社媒获取服装趋势;

《美客多趋势报告-智利站》PDF下载

在当今的消费环境中，每一次购物都成为消费者身份的体现，反映出消费者的兴趣、欲望和价值观。这些选择受到时代和文化的影响，不仅展现了消费者的偏好，也塑造了消费者与市场的关系。

《拉美八国经贸与投资概览》PDF下载

中国与古巴1960年建立外交关系，正式开启了中国与拉美地区合作的新纪元。截至目前，中国已与26个拉美和加勒比国家建立外交关系，并同其中22个国家签署了共建“一带一路”合作文件，关系不断深化。

北美电商资讯

AMZ123旗下北美跨境电商新闻栏目，专注北美跨境电商热点资讯，为广大卖家提供北美跨境电商最新动态、最热新闻。