拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条正文

【Python爬虫】:使用「Requests」+「bs4」写亚马逊爬虫

任佳伟
以中国亚马逊卖家为中心,引导每一个卖家,运用互联网产品运营的思维去经营自己的店铺和产品,希望能把每一家在亚马逊上卖货的公司,变成一家互联网公司.让爆单成为每个卖家日常生活的一部分.
29799
2018-09-21 19:14


使用「Requests」+「bs4」写亚马逊爬虫


      终于我们还是讲到用「Python」来爬数据了。有些卖家就问了,为什么要用pytho?之前不是已经有一些Chrome插件或者其他简便的方法了吗?是的没错,但是他们都还达不到指哪儿爬哪儿、无惧目标网站封杀的水平呀。


作为已经成为最受欢迎的程序设计语言之一「Python」,它除了具有丰富和强大的库之外,还被赋予“胶水语言”的昵称,毕竟它能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结在一起。用它来写爬虫我们就是「站在巨人的肩膀上」,很多东西并不需要我们写,只需要库里拿过来用就行了。


话不多说,接下来小编就来叫大家如何操作!



环境搭建步骤:


一、安装Python:

在这里我们使用python 3.6.6版本,可在下面连接中直接下载。


Windows 版本:

https://www.python.org/ftp/python/3.6.6/python-3.6.6.exe

MacOS版本:

https://www.python.org/ftp/python/3.6.6/python-3.6.6-macosx10.9.pkg

其他版本请访问python官网:

https://www.python.org/downloads/release/python-366/


首先将「Add Python 3.6 to PATH」勾选上,点击「Customize installation」。


在将「Install for all users」勾选上,点击「install」。 


安装完成后,我们来检查一下Python是否安装成功,打开cmd命令,输入python回车,若显示类似下图,证明环Python安装成功。



二、安装PyCharm:

PyChram是一款提供Python开发环境的应用程序,可以帮助我们更好的编写、调试代码。


Windows版本: 

https://download.jetbrains.com/python/pycharm-professional-2018.2.exe

MacOS版本:

https://download.jetbrains.com/python/pycharm-professional-2018.2.dmg

具体安装步骤可参考:

https://www.cnblogs.com/dcpeng/p/9031405.html


下载完成后双击打开Pychram安装包,傻瓜化安装,基本一路next。



三、配置PyCharm:

打开pycharm,按下列图片完成配置。


四、创建新项目

以上就是PyCharm + Python3.6环境的搭建步骤。



编写第一个爬虫

爬虫技术需要循序渐进,今天我们先爬一些简单的东西来方便大家理解,为后期爬取亚马逊数据做准备。


  • 分析目标网站

今天我们选择的目标网站是【亚马逊美国站】https://www.amazon.com。首先我们使用Chrome浏览器打开该网站,搜索关键字「iphone」并分析该网站的网页结构。


分析后不难看出该网站目标数据处的网页结构:

id为s-results-list-atf的<ul>标签包含有数个<li>标签,每一个<li>标签包含了每件商品的一些信息。因此我们只需要请求网页数据,拿到id为s-results-list-atf的<ul>标签源码,然后自己解析、取出自己想要的数据即可。



一个爬虫主要分为四个部分:



一、请求数据:

首先我们安装python中的「Requests」。

在我们刚才创建的「black_Friday」中 输入:

import requests  # 导入requests
from bs4 import BeautifulSoup  # 从bs4中导入BeautifulSoup



光标停留在有红底波浪线的requests上按「Alt」+「Enter」然后选择「Install  package requests」等待模块安装完成后红色波浪线会消失。

以同样的方式安装「bs4」模块。

url = 'https://www.amazon.com/s/keywords=iphone'
response = requests.get(url)




二、拿到数据

「response」是一个变量名,用来保存目标网站返回给我们的数据。


可使用下面代码在控制台打印出目标网站返回的数据。

print(response.text)



三、解析数据

返回的数据看起来乱七八糟的怎么办?这么大一堆怎么找到想要的数据呢?这就要用到刚才导入的「bs4」模块了。Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式,Beautiful Soup会帮你节省数小时甚至数天的工作时间。


首先生成一个「BeautifulSoup」对象,我们命名为:response_soup:

response_soup = BeautifulSoup(response.text, 'html.parser')


其中「response.text」表示返回的数据,「html.parser」表示解析的方式。

result_list = response_soup.find('ul', id='s-results-list-atf').find_all("li")


在response_soup中找到id为s-results-list-atf的<ul>标签,    再在其中寻找所有的<li>标签。

for li in result_list:
   
print(li)
   
print("=" * 60)


可以用遍历的方式打印每个<li>标签,看是否与我们想要的数据一致。


1、ASIN

配合Chrome我们可以看出每个<li>标签的“data-asin”即为商品的「ASIN」。


asin = li['data-asin']

这样即可取出每件商品的「ASIN」。


2、Price


商品的价格是写在一个class为a-size-base a-color-base的<span>标签中。找出该标签,取出标签中的文本即可找出价格。

price = li.find('span', 'a-size-base a-color-base').text


3、Star

商品的star是写在一个class为a-icon-alt的<span>标签中。找出该标签,取出标签中的文本即可找出价格。


star = li.find('span','a-icon-alt').text

这样我们便爬到了一页中所有产品的Asin、Price、Star。



四、保存数据

使用csv库,将爬到的数据以csv格式保存下来。

import csv # 导入csv库


定义一个列表,用来保存每件商品的数据。

info_list = []


将Asin、Price、Star添加到列表中。

info_list.append(asin)
info_list.append(price)
info_list.append(star)


打开csv文件(若当前路径下没有改文件,将自动创建)。这里命名csv文件为“iPhone.csv”

csvFile = open('./iphone.csv', 'a', newline='')


创建写入对象、写入数据并关闭csv文件。

writer = csv.writer(csvFile)
writer.writerow(info_list)
csvFile.close()


完整代码:

import requests  # 导入requests
from bs4 import BeautifulSoup  # 从bs4中导入BeautifulSoup
import csv
url =
'https://www.amazon.com/s/keywords=iphone'
response = requests.get(url)
response_soup = BeautifulSoup(response.text
, 'html.parser')
result_list = response_soup.find(
'ul', id='s-results-list-atf').find_all("li")
for li in result_list:
    info_list = []
   
try:
        price = li.find(
'span', 'a-offscreen').text
   
except:
        price = li.find(
'span', 'a-size-base a-color-base').text
    asin = li[
'data-asin']
    star = li.find(
'span', 'a-icon-alt').text
   
print(asin)
   
print(price)
   
print(star)
    info_list.append(asin)
    info_list.append(price)
    info_list.append(star)
    csvFile =
open('./iphone.csv', 'a', newline='')
    writer = csv.writer(csvFile)
    writer.writerow(info_list)
    csvFile.close()
   
print("=" * 60)


运行效果:


以上就是本期的爬虫文章,谢谢阅读。


附 「Requests」&「bs4」的中文操作文档:

Requests:

http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

bs4:

http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/


更多精彩推荐,请关注我们


AMZ123跨境卖家导航旗下公众号【AMZ123跨境电商】深耕跨境行业,专注热点报道。
扫描右边二维码,关注后回复【加群】,加入优质卖家交流群~
目前30W+卖家关注我们
二维码
免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签问答
案例解读:Prime Day大促,宠物品牌雀巢普瑞纳做对了什么
亚马逊5月7-8日举办了亚马逊宠物日促销活动(Amazon Pet Day),为消费者提供宠物用品、玩具、服装、美容产品和配件的优惠折扣。这是亚马逊第三次举办Pet Day,特价品牌包括 Furbo、Frontline、Purina、Merrick、Blue Buffalo、Petmate、HoppScotch.bun、Jinx Pet Food、Halo Collar、Bundle x Joy、
盲盒界独角兽!Finding Unicorn独立站如何通过TikTok平台玩转潮玩市场?
盲盒在我国可谓是站在一个制高点,盲盒独特的特点给用户带来了无限的惊喜感,发展极为迅速。Z世代更为个性的消费观不仅推动了盲盒经济的发展,同时也引发了IP背后所隐藏的经济链条和各大潮玩品牌的互动。2015年我国潮玩产业规模已经达到63亿元,2022年我国潮玩行业市场规模上升至478亿元,复合年增长率超过30%。海外消费者与国内消费者一样,对能提供情绪价值的新颖事物充满好奇心,而这正符合盲盒的特点。今天
最新数据:近60%在线买家认为平台评价偏向好评
AMZ123获悉,5月15日,据外媒报道,印度社媒平台Local Circles的调查结果显示,在过去12个月中,近56%的印度在线购物者认为电商平台的网站和应用程序存在偏向正面积极评价的情况。据了解,鉴于在线交易的投诉量持续增长,Local Circles进行了一项全面的全国调查,以了解在线评论和评级自愿标准的有效性。该调查统计了印度超过344个地区的电商网站和应用程序用户的54000多份数据。
这些费用折扣优惠别错过!
费用支出是广大卖家最关心的话题之一。其实,eBay平台提供了许多政策和资源,帮助卖家在拓展业务范围、提高运营能力的同时,获得可观的费用折扣优惠。本期运营小课堂,便为大家介绍几个获得费用折扣优惠的妙招。许多卖家入驻eBay平台后,以个人卖家身份开展业务,这部分卖家只需要注册高于入门级的eBay店铺,就可以获得很大幅度的成交费优惠。我们可以通过下面这个例子来感受一下两者的区别。案例一卖家A以9,500
新案件汇总!两起国人原告外观专利维权发案!速看避雷!
带孔调料盖案件参数起诉时间:2024/5/15案件号:24-cv-3942原告品牌:带孔调料盖品牌方:Pingyang Wanwei E-commerce Co., Ltd起诉地:美国伊利诺伊州注册专利原告 Pingyang Wanwei E-commerce Co., Ltd 是国人卖家,拥有并经营一家亚马逊商店,专业销售各种厨具,如喷雾瓶、胡椒瓶等。案件涉及产品是一款常见的带孔塑料调料盖,其外
TikTok Shop对个体户开放?TikTok卖家靠一个爆品,年爆单2000万美元!
TikTok Shop卖家靠塑身泳衣爆单2000万美元!出品 | 电商123 作者 | 老柴TikTok塑身泳衣卖家1年卖了2000万美元电商123获悉,随着全球泳衣市场消费火爆,明年全球泳衣市场将增长到近300亿美元,也让最近一家TikTok Shop泳衣卖家凭借其打造的收腹紧身泳衣爆款单品在一年里拿下了20000万美元营收成绩。目前泳衣已经成为欧美女性夏日必备消耗品,且全球各类泳衣的消费需
离了个大谱?对华征收高关税后,美国又禁止26个中国卖家进入!
美国又禁止26个中国卖家进入美国市场!出品 | 电商123 作者 | 老柴对华高额关税将冲击美国经济电商123获悉,就在美国白宫5月14日宣布将对包括电动车、芯片、医疗产品在内的一系列中国商品征收新的关税,其中对中国进口电动车的加征的关税已调整到100%后,将经贸问题政治化的301关税受到了全球诟病,也将对接下来的美国经济复苏和降低通胀产生深远影响。对此,白宫国家经济委员会委员长表示,中国产业
挂钩到底被注册了多少个专利?这款双头挂钩加入维权队伍!
继旋转挂钩(24-cv-01841)、手袋挂钩(23-cv-2000)维权后,挂钩家族再添一员!01DOUBLE HOOK双头挂钩原告是我国东莞某贸易公司,主要在eBay和亚马逊等海外平台经营店铺,旗下有一款挂钩产品,可以给CPAP呼吸机用户支撑软管和收纳呼吸面罩。原告在5月16日向法院提交TRO禁令。案件信息:起诉时间:2024年5月15日案件号:24-cv-03956代理律所:Sherinia
“电脑遮光罩”在美国市场的(发明专利)侵权预警及规避办法668
在美国市场,以亚马逊美国站为例,下图所示产品为一种“电脑遮光罩”,用于类似笔记本电脑在室外使用时的光遮蔽和隐私遮挡:在美国市场有对应发明专利,其技术方案概述如下:本发明涉及用于电子设备屏幕的光遮罩及私密遮罩。用于电子设备屏幕的可折叠光遮罩及私密遮罩板特别适用于膝上型计算机、电子平板电脑和设备。光和私密遮罩由三个半刚性面板构成,其表面中集成了四个模制的塑料和橡胶夹。三个面板之间的区域形成灵活的铰链,
大量店铺销量砍半,卖家直呼淡季来了!
弹指间,2024年第二季度已经过半。 面对政策收紧、低价内卷、成本上涨等一系列持续发酵的运营难题,步入5月,亚马逊卖家们的跨境之路依旧走得磕磕绊绊。 根据以往的销售状况,因节日众多,消费者会在3月至5月的春季里购买礼物,这个时间段通常都被卖家们视作为亚马逊的销售高峰期。而对于5月这个拥有劳动节、母亲节等重要节日的月份,不少卖家更是报以在此期间能够迎来促销盛宴的期望。 但事与愿违的是,今年美国站卖家
亚马逊卖家1分钟爆单8600件?亚马逊群发"警告"邮件,有卖家已被封号!
超1万名亚马逊卖家营收破100万美元!出品 | 电商123 作者 | 老柴01亚马逊超1万名卖家销售额突破100万美元电商123获悉,近日亚马逊发布了一份《2023年小企业赋权报告》,该报告显示,2023年,美国独立卖家在亚马逊销售额突破45亿件,超1万卖家销售额超百万美元,平均每分钟8600件,平均年销售额超过25万美元。当然了,这些成绩的取得离不开亚马逊持续的资金、工具支持。▲图源网络,侵
出海月销百万美金!小众宠物品牌做出大爆单品
随着宠物经济的兴盛,智能养宠这条千亿赛道也愈发拥挤,大批新老玩家接连入场,你方唱罢我登场,好不热闹。听过智能喂猫、智能养狗,你听说过智能养鸟吗?FMI最新数据显示,2023年全球野鸟产品市场规模预计达73亿美元,预计2023~2033年复合年增长率为3.8%,而美国是全球鸟类产品最赚钱的市场之一,美国人对野生鸟类尤为痴迷,观鸟是美国人的第二大户外爱好。在市面上,传统的鸟类喂食器不仅卖不上高价,而且
亚马逊北美站低量库存费更新!这类产品将无需缴费
AMZ123获悉,近日,亚马逊北美站发布公告,宣布从5月15日开始,对低量库存费做出调整。此前,低量库存费自4月1日起生效,亚马逊将4月作为过渡期,向卖家返还在此期间收取的费用。根据最新公告,该过渡期将延长至5月14日。5月31日,卖家将收到4月1日至5月14日期间产生的所有低量库存费。此外,亚马逊针对低量库存费进行三项额外的更改:1.由于季节性产品等小批量产品的库存管理存在较高的不可预测性,5月
销量翻倍!亚马逊引流入口震撼上线!
4月,本该是卖家激情满满,大展拳脚的时候。但卖家们的经历却一波三折。近期,很多卖家反馈,遭遇单量滑坡,跌势仍在继续。看到这里卖家们可能会很焦虑。But,先别着急,亚马逊新推出了一项新功能Creator Connections,据了解,有望为卖家提高销量、增加曝光,并加速新品推广。那么,究竟是什么新功能呢?一起来看下吧!亚马逊推出新功能Creator Connections 卖家打开亚马逊的后台,在
亚马逊变体违规风暴升级,卖家赶紧自查!
正文众所周知,亚马逊亚马逊是一个重产品、轻店铺的平台,极其重视买家权益和购物体验。为了确保买家获得最佳服务,亚马逊制定了严格的卖家账户运营规则,这些规则必须遵守,绝不可逾越底线,否则卖家将面临店铺封禁的风险。最近,亚马逊平台掀起了一场针对变体违规行为的严厉打击行动,这股风暴的烈度之强,使得不少卖家都未能幸免。事实上,这并非亚马逊的突然行动,而是早有预兆的。从今年3月中旬开始,亚马逊就已经针对违规变
旺季备货遇到美国海关查验潮,怎么办?!
备受期待的亚马逊Primeday即将开启!作为一年一度的狂欢盛会,各位卖家朋友备好货了吗?在这紧锣密鼓的备战中,有消息称美国货物查验率突然暴涨,引发了大家的关注和讨论。莫慌,其实从4月开始,美国海关的检查频率一直就维持在较高水平。01什么原因导致美国海关查验率飙升?据了解,主要原因包括但不限于:1、模糊、不合规的货物描述引起了美国海关和边境保护局(CBP)的关注。2、频繁检出集装箱内藏有禁运物品和
《市场报告-隐形文胸(胸贴)》PDF下载
隐形文胸(又称粘性文胸,后简称胸贴),一种特殊设计的内衣,没有肩带和紧身设计,通过胶粘剂或胶水在胸部周围粘附,提供支撑和提升效果。材质主要有医用胶、连体服胶和硅胶三类
《2024年第1季度全球宏观经济季度报告》PDF下载
1季度,中国外部经济综合CEEM-PMMI指数季度低于荣枯线。美国经济继续扩张,美国经济继续扩张,欧洲经济双速复苏,日本经济运行大势稳定。印度经济继续强劲增长,巴西经济继续缓慢复苏,南非复苏态势疲弱,俄罗斯经济延续短期韧性。东盟六国和韩国金融市场呈现汇率相对较弱、股票市场整体表现较强的格局。
《2023年东南亚经贸简报-增长放缓旅游回升,汽车和资源贸易活跃》PDF下载
2023 年东南亚六国的宏观经济增速较上年有所放缓。菲律宾经济增长最为强劲,印度尼西亚制造业景气上升,越南消费表现强劲,马来西亚消费增长区域内第一,新加坡经济增长表现不错,泰国经济增长最为疲弱。
《跨境电商行业深度研究报告:短跑至长跑,跨境出海提速》PDF下载
海外头部跨境电商平台实力犹在,频频发力新兴市场。国际 B2C 跨境电商平台主要有 Amazon、eBay、Wish等。据Statista数据,在多位玩家集聚的美国市场,亚马逊以37.6%的绝对优势稳居市场份额第一,领先其他平台。
《2024全球可持续美妆的创新与革命》PDF下载
可持续美妆是企业积极担负社会责任的体现。品牌通过联合成立可持续联盟,构建评分系统等方式,在行业内推广各种可持续标准,共同努力构建一个更加绿色、透明的美妆世界。
《2023年全球应用广告变现趋势报告》PDF下载
从地区上来看,美国仍然是应用品类需要持续深挖的地区,持续上升的下载量、一路走高的 eCPM 为开发者提供源源不断的机会。尤其在工具与效率、小说与阅读品类上表现优异,不仅下载同比提升了10%,二者的广告收益也名列前茅。
《跨境境市场家居、园艺类目数据调研报告》PDF下载
全球家饰市场稳步增长(近5年4.9%的年复合增长率),预计2025年,全球规模将成长至1200亿美金;其中美国家饰市场占全球25%,欧洲占20%。
《亚马逊2022中国跨境电商产业集群白皮书》PDF下载
全球 2022 年经济增长放缓,部分品类消费需求减弱,国际化生产和贸易要素成本持续上升,压缩出口企业的利润空间;全球疫情对产业链供应链稳定带来一定影响,出口企业业绩承压。在当今世界经济环境充满不确定性的情况下,中国外贸出口和跨境电商行业展现出极强的韧性,保持着稳定发展态势。
跨境电商赢商荟
跨境电商行业唯一一家一年365天不断更的媒体!
跨境学院
跨境电商大小事,尽在跨境学院。
AMZ123卖家导航
这个人很懒,还没有自我介绍
欧洲电商资讯
AMZ123旗下欧洲跨境电商新闻栏目,专注欧洲跨境电商热点资讯,为广大卖家提供欧洲跨境电商最新动态、最热新闻。
AMZ123会员
「AMZ123会员」为出海者推出的一站式私享服务
跨境平台资讯
AMZ123旗下跨境电商平台新闻栏目,专注全球跨境电商平台热点事件,为广大卖家提供跨境电商平台最新动态、最热新闻。
亚马逊全球开店
亚马逊全球开店官方公众号,致力于为中国跨境卖家提供最新,最全亚马逊全球开店资讯,运营干货分享及开店支持。
AMZ123选品观察员
选品推荐及选品技巧分享。
品类交流群
跨境资料
官方社区
宠物品类交流群
加入
玩具品类交流群
加入
运动户外交流群
加入
立即扫码咨询
立即扫码咨询
立即咨询
官方微信群
官方客服

扫码添加,立即咨询

扫码加群
官方微信群
官方微信群

扫码添加,拉你进群

更多内容
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯