AMZ123跨境卖家导航
拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条文章详情

【Python爬虫】:使用「Selenium」+「Chromedriver」爬僵尸链接

任佳伟
任佳伟
46267
2018-09-21 19:14
2018-09-21 19:14
46267


使用「Selenium」+「Chromedriver」爬僵尸链接


     在往期的文章中有读者朋友提问能否爬「僵尸链接」,肯定是可以的。只有你看不到,没有爬虫爬不了的。


使用本文今天将讲到的「Selenium」+「Chromedriver」就可以轻松完成。本文还是会从环境搭建、查找僵尸链接原理到代码编写一步步来实现这个需求。


Selenium原本是一套完整的web应用程序测试系统,现也用作爬虫。用户可以使用它驱动浏览器,使浏览器按照已编写完成的代码完成相应动作。


Selenium支持驱动Chrome、Firefox、IE等一系列浏览器,在这里我还是选用大家熟悉的Chrome浏览器。



环境搭建步骤:



一、安装Selenium


在上一期已搭建Python环境的前提下打开CMD窗口,输入: pip install selenium」会自动安装selenium,如无报错,且提示安装成功,则成功安装selenium


可以通过以下方式验证是否安装成功并且能正常使用:

CMD窗口中输入python,再输入from selenium import webdriver,敲击回车。如果没有报错,则selenium成功安装且能正常使用。



二、下载Chromedriver


首先从https://www.google.cn/chrome/下载最新版Chrome浏览器,再从http://chromedriver.storage.googleapis.com/index.htm 下载最新版的Chromedriver


若你已经安装了Chrome浏览器,可根据已安装的Chrome浏览器版本下载对应的Chromedriver版本。附ChromeChromedriver的对应关系表:

Chrome浏览器和Chromedriver都下载完成后,将Chrome浏览器安装好,将Chromedriver解压放在自己喜欢的地方待用。



查找原理:


在搜索引擎中使用「site」关键字,可以把搜索范围限定在特定站点中,如site:某某.com。“site:”后面跟的站点域名,不要带“http://”;site:后面带不带www结果可能是不一样的,因为有些域名还包括二级域名,如:site:www.某某.com和site:某某.com,搜索结果就不一样;另外,site:和站点名之间,不要带空格。


我们可以用「site:amazon.com」,只查找在亚马逊网站内的信息。

而一个僵尸链接必有下图特征:


那我们需要构建一个完整的搜索关键字使用Google就可以帮我们找出亚马逊中的僵尸链接。如我需要找「Nike」的僵尸链接,则使用「site:amazon.com Nike Currently unavailable.」使用Google搜索即可。


但其中某些搜索结果,并不是我们想要的僵尸链接。这就需要我们的爬虫去遍历每个搜索结果,并返回正确的僵尸链接。



代码编写:


打开Pycharm,新建项目:

从selenium导入webdriver:

from selenium import webdriver


准备好搜索链接:

url = 'https://www.google.com/search?q=site%EF%BC%9Aamazon.com+Nike+Currently+unavailable.'

        

driver = webdriver.Chrome('C:Program Files (x86)GoogleChromeApplicationchromedriver.exe')
#
在webdriver.Chrome(中填入之前下载好的Chromedrive的路径)
driver.get(url)
 

        


将自动打开Chrome浏览器并访问:

https://www.google.com/search?q=site%EF%BC%9Aamazon.com+Nike+Currently+unavailable.


若浏览器出现「Chrome 正受到自动测试软件的控制。」则表示我们已成功使用selenium驱动Chrome并按照预设访问了Google。


分析Google搜索结果页面,在搜索结果页面按F12。通过分析网页源码,可以看出每个搜索结果都包含在一个class为rc的<div>标签内:


我们可以使用「XPath」来查看是否通过查找所有的class为rc的<div>标签即可找到所有搜索结果。首先下载Chrome插件「XPath Helper」:


在搜索结果页面打开「XPath Helper」,输入「//div[@class='rc']」,显示「RESULTS (20)」及表示有20个class为rc的<div>标签,这与页面中的20个搜索结果相符,这表示可以使用该XPath找出页面中共有多少个搜索结果。



再按照下图分别点击1、2定位某条搜索结果的标题:


在第三步上点击鼠标右键→「Copy」→「Copy XPath」


这里要科普一下,「XPath」是XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。使用XPath我们可以准确定位页面中某个元素的位置。


多拷贝几个搜索结果的XPath,可以找出其中的规律:

可见只需将XPath略微修改即可准确定位每个搜索结果的标题,那我们就可以继续敲代码了。


首先查找所有的class为rc的<div>标签,并计算其长度。

all_rc = driver.find_elements_by_xpath("//div[@class='rc']") # 查找所有的class为rc的<div>标签
len_all_rc =
len(all_rc) # len()可计算其长度


根据所有的class为rc的<div>标签的长度,生成新的XPath并定位、点击,即跳转至亚马逊商品页面。

# for X in range () 是前开后闭,所以需要len_all_rc + 1 才能循环len_all_rc次。
for i in range(1, len_all_rc + 1):
    #
拼接新的XPath
xpath = "//*[@id='rso']/div/div/div["+str(i)+"]/div/div/h3/a"
# 根据XPath定位搜索结果的标题,并点击
   
driver.find_element_by_xpath(xpath).click()
 

                   

返回亚马逊商品页面源码。

pageSource = driver.page_source


如果“Currently unavailable.”在页面源码中,即可确定是为僵尸链接。则在控制台打印该商品链接。

if 'Currently unavailable.' in pageSource:
   
print(driver.current_url)

                  

完成一次循环后,需要退回到Google搜索界面,下次一循环才能正确进行。

driver.back()


完成一页搜索结果筛选后,需要点击搜索结果页面的下一页继续筛选,直到无新的搜索结果为止。

# 定位下一页的按钮
next_button = driver.find_element_by_xpath('//*[@id="pnnext"]/span[2]')
# 如果下一页按钮存在
if next_button:
     # 这定位下一页按钮并点击
    driver.find_element_by_xpath(
'//*[@id="pnnext"]/span[2]').click()
# 否则退出循环、结束程序。
else:
   
break
 



以上便是使用「Selenium」+「Chromedriver」从环境搭建、查找链接原理到代码编写来实现爬取僵尸链接的全部过程。其完整代码为:

from selenium import webdriver

url =
'https://www.google.com/search?q=site%EF%BC%9Aamazon.com+Nike+Currently+unavailable.'
driver = webdriver.Chrome('C:Program Files (x86)GoogleChromeApplicationchromedriver.exe')
driver.maximize_window()
driver.get(url)
while True:
    all_rc = driver.find_elements_by_xpath(
"//div[@class='rc']")
    len_all_rc =
len(all_rc)
   
for i in range(1, len_all_rc + 1):
        xpath =
"//*[@id='rso']/div/div/div["+str(i)+"]/div/div/h3/a"
       
driver.find_element_by_xpath(xpath).click()
        pageSource = driver.page_source
       
if 'Currently unavailable.' in pageSource:
           
print(driver.current_url)
        driver.back()
    next_button = driver.find_element_by_xpath(
'//*[@id="pnnext"]/span[2]')
   
if next_button:
        driver.find_element_by_xpath(
'//*[@id="pnnext"]/span[2]').click()
   
else:
       
break


我的这篇文章只是简单的介绍了selenium + webdriver的使用,当然你也可以结合「Requests」+「bs4」爬取每个僵尸链接对应商品的Asin、标题、品牌、star、review等,并保存到文件中方便筛选你中意的僵尸。


 如图:


往期链接:【Python爬虫】:使用「Requests」+「bs4」写亚马逊爬虫


更多好文,敬请关注。

免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签
印尼6大电商监管措施出台,Shopee、TikTok Shop等受影响
从2026年7月1日起,印尼政府正式实施两项新的重要法规,全面改变Shopee、TikTok Shop、Tokopedia、Lazada和Blibli等电商与社交电商平台的运营规则。
TikTok更新AI营销工具Symphony Agent
TikTok更新了AI营销工具Symphony Agent,旨在帮助广告主在更短时间内完成内容创作、创作者匹配以及广告投放,以应对当前营销行业对内容生产速度与规模不断提升的需求。
国产保暖裤刷屏巴西TikTok,爆款已经卖了90万+
7天爆单超2万!保暖赛道在TikTok巴西彻底火了
亚马逊AWS投资10亿美元,成立AI工程新部门
亚马逊将在其AWS部门内部成立一个全新的业务单元,并投入10亿美元用于建设该团队。该新部门将专注于“前线部署工程师”,这些工程师将直接进入客户企业内部,与客户团队共同工作,以帮助企业更快、更高效地应用人工智能技术。
Visa、Coinbase等140多家公司联合推出新稳定币Open USD
由Visa、Mastercard以及Coinbase等超过140家金融、支付和科技公司组成的联合体正式推出一款新的稳定币项目Open USD
亚马逊竞品分析:品牌策略调研实操指南
在亚马逊平台的精细化运营体系中,竞品调研是支撑产品开发、品牌定位与运营策略制定的重要依据。其中品牌策略维度的调研,能够帮助卖家跳出单个Listing的竞争视角,从品牌整体层面理解竞品的长期布局逻辑,进而为自身品牌搭建与产品矩阵规划提供可参考的落地路径。本文将从店铺产品布局、品牌视觉与产品矩阵、品牌故事与理念三个层面,系统拆解亚马逊竞品品牌调研的实操方法与分析逻辑,并补充完整的竞品调研四维框架供参考。一、店铺产品布局调研1.1 店铺信息的获取路径开展店铺产品布局调研的第一步,是定位竞品所属的官方店铺。
欧盟小包关税正式生效,一批卖家计划离场!
继美国后,欧盟也给狂奔的跨境直邮小包模式,踩了一脚急刹车。当地时间7月1日,欧盟新关税政策正式生效,针对来自非欧盟国家、申报价值不超过150欧元的进口小额包裹,取消原有的关税豁免,并统一征收3欧元的临时固定关税。尽管欧盟方面称该政策并非针对中国,但从各项数据来看,受其最大冲击仍然是中国跨境卖家。欧盟委员会数据显示,2025年进入欧盟的低价值电商包裹高达58亿件,较2024年同比增长了26%,数量是2022年的四倍以上,其中约90%来自中国,Temu、SHEIN、速卖通等平台凭借极致性价比抢占市场。
亚马逊将在波兰新建物流中心,部署超5000台机器人
亚马逊宣布,将于2026年10月在波兰启用第12座物流中心。新中心位于下西里西亚省希维德尼察县多布罗米日,也是该地区首座配备完整Amazon Robotics机器人系统的物流中心。
亚马逊AI购物助手Alexa新增商品历史价格查询功能
亚马逊旗下AI购物助手Alexa for Shopping可展示商品过去30天、90天以及365天的价格历史,为消费者提供更加完整的价格走势信息。
26年美国独立日消费将达220亿美元,沃尔玛成首选购物平台
市场研究机构Numerator最新数据显示,随着美国迎来建国250周年纪念日,尽管物价上涨仍在影响消费者支出,美国独立日消费热情依然保持高位,预计美国独立日相关消费总额将接近220亿美元。
7月海运费再涨,一批卖家利润或被吞
卖家刚从Prime Day的流量高峰里出来,就撞上了新一轮海运涨价潮。数据显示,2026年Prime Day四天活动期间,美国线上消费总额达264亿美元,较去年增长9.3%。消费热度仍在,但大促后的补货、发柜和备货压力,也开始集中传导到物流端。AMZ123了解到,进入7月前夕,达飞轮船、马士基等多家班轮公司陆续发布旺季附加费公告,覆盖北美、东非、印度及巴基斯坦等多条航线。本轮最受关注的是北美航线。根据达飞轮船公告,自2026年7月10日起,亚洲、远东及印度次大陆出口至美国和加拿大的货物,将执行新的旺季附加费标准。
欧洲高温带动降温产品热销,阿里国际站风扇订单增速超过空调
阿里巴巴国际站最新发布的B2B采购数据显示,与以往夏季备货模式相比,今年欧洲市场出现明显变化,便携式风扇的订单增长速度已经超过空调,成为多数市场最受欢迎的降温产品。
亚马逊在德国推出AI卖家助手
亚马逊AI卖家助手(Seller Assistant)现已正式在德国卖家中心上线。该工具将帮助卖家查找相关信息、获取业务洞察,并通过AI辅助决策,更高效地管理店铺运营。
上线即爆单,拼夕夕3元发箍在TikTok成人气“单品”
3个月卖了75万,这一配饰赛道正在TikTok上闷声发财
重磅首发 | 2026世界杯拉美5国电商趋势报告,跨境卖家必看!
2026年美加墨世界杯是历史上首次由三国联合举办,也是首次扩军至48支参赛球队的一届世界杯。美客多作为2026™年国际足联世界杯的拉美官方合作伙伴,近期独家发布了MELI TRENDS拉美5国世界杯趋势报告,为我们呈现了一幅拉美球迷从赛前准备到赛事消费的完整图景。在这场全球瞩目的体育盛宴中,美客多不仅在赛场内展开强力的官方营销,更在场外站点同步上线了极具吸引力的世界杯大促专区。这种“场内精准引流、场外高效转化”的联动模式,在整个世界杯赛程里持续吸引海量的拉美消费者。在赛事激战正酣之际,紧跟美客多的官方大盘数据与消费洞察,找到赛程期间实现单量爆发的决胜钥匙。
雅虎购物推出AI购物备忘录,支持智能推荐与选购商品
日本电商平台雅虎购物宣布,自2026年6月23日起,“Yahoo! Shopping AI Agent”正式分批推出全新功能“AI购物备忘录。该功能能够根据用户日常记录的购物内容,由AI自动分析需求并推荐相关商品。
《中国照明行业出海国别机会洞察报告》PDF下载
近年来,全球对高品质生活和居住环境的重视持续上升,带动了照明行业的快速发展。随着智能家居和绿色节能理念的普及,消费者对照明产品在功能性、美观性和智能化方面提出了更高要求,推动了智能照明,,装饰性灯具等细分市场的不断拓展。
《TikTok Shop 2024-2025欧美宠物类目报告》PDF下载
美国站宠物细分品类销售数量上来看,狗猫护理、狗猫配件、狗猫的家居成交数量最多成交约170万件,而成交量前三的品类最受欢迎是10-30美元的平价产品,但50-100美元的产品成交量也较高,属于量价兑现均高品类,进入此市场卖家可参考。
《2026年印尼画框&装饰画市场调查》PDF下载
在印度尼西亚,绘画与画框艺术完美融合了传统工艺与现代设计,深受家居装饰和纯艺术市场的青睐。当地工匠主打木质画框,而在线平台则提供可定制选项及进口款式,让印尼消费者能轻松选购到兼具传统的味与现代风格的艺术画框。
《2025全球化新品牌洞察报告》PDF下载
2025年,全球贸易体系深度从“一体化”转向“碎片化”,规则碎片化成定局,品牌全球化进入“精准导航”时代。关税壁垒呈“精准化+区域化”,多国差异化政策让单一应对策略失效;碳边境调节机制落地,覆盖行业扩围,企业需付额外碳排放成本。
《2025欧洲市场年中Prime-Day基准数据》PDF下载
本报告分析了欧洲市场零售媒体广告的现状,帮助您评估业绩并了解关键行业趋势。本报告提供了大规模广告数据的总览,包含数万家大中小型规模,不同品类广告主的数据,是业内同类报告中最全面的报告之一。
《美客多趋势报告-巴西站》PDF下载
根据Kantar《Media Reactions 2024》数据,86%的巴西网民使用美客多进行购物、寻找优惠信息或比价。同时,拉美地区每10个人中就有8个在美客多进行搜索,充分体现了电商在该地区的主导地位。
《TikTok Shop 墨西哥市场分析报告》PDF下载
在全球社交电商高速发展的时代浪潮中,TikTok已然崛起为品牌与消费者深度互动的重要阵地。TikTok不仅重塑了用户的消费习惯,更开创了"发现式购物"的新模式,为品牌营销带来了前所未有的机遇与挑战。
《2026全球AI眼镜行业战略洞察报告》PDF下载
过去三年,全球 AI 眼镜市场经历了爆发式增长:出货量从 2023 年的 34 万台激增至2025 年的 870 万台,三年增长超过 25 倍。2026 年,这一数字有望突破 1000 万台。苹果、谷歌、三星等科技巨头纷纷入局,资本市场反应同样迅猛。
亚马逊资讯
AMZ123旗下亚马逊资讯发布平台,专注亚马逊全球热点事件,为广大卖家提供亚马逊最新动态、最热新闻。
AMZ123跨境电商
专注跨境行业热点事件报道,每日坚持推送原创深度热文
亿邦动力网
消除一切电商知识鸿沟,每日发布独家重磅新闻。
AMZ123选品观察员
选品推荐及选品技巧分享。
跨境数据中心
聚合海量跨境数据,输出跨境研究智慧。
欧洲电商资讯
AMZ123旗下欧洲跨境电商新闻栏目,专注欧洲跨境电商热点资讯,为广大卖家提供欧洲跨境电商最新动态、最热新闻。
跨境平台资讯
AMZ123旗下跨境电商平台新闻栏目,专注全球跨境电商平台热点事件,为广大卖家提供跨境电商平台最新动态、最热新闻。
跨境电商干货集结
跨境电商干货集结,是结合亚马逊跨境电商卖家交流群内大家在交流过程中最常遇到的问题,进行收集整理,汇总解答,将会持续更新大家当前最常遇见的问题。欢迎大家加入跨境电商干货集结卖家交流群一起探讨。
首页
跨境头条
文章详情
咨询
官方微信群
官方客服

扫码添加,立即咨询

加群
官方微信群
官方微信群

扫码添加,拉你进群

更多
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯

回顶部