AMZ123跨境卖家导航
拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条文章详情

如何爬动态加载的页面?ajax爬虫你有必要掌握

任佳伟
任佳伟
13598
2018-09-21 19:13
2018-09-21 19:13
13598


通过前面几期Python爬虫的文章,不少童鞋已经可以随心所欲的爬取自己想要的数据,就算是一些页面很难分析,也可以用之前介绍的终极技能之「Selenium」+「Webdriver」解决相关问题,但无奈这种办法效率太慢,咋整?


今天就为大家介绍Ajax异步加载的数据的爬取。


↓↓↓


何为Ajax异步加载的数据呢?


Ajax,全称为Asynchronous JavaScript and XML,即异步的JavaScript和XML。它不是一门编程语言,而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。对于传统的网页,如果想更新其内容,那么必须要刷新整个页面,但有了Ajax,便可以在页面不被全部刷新的情况下更新其内容。在这个过程中,页面实际上是在后台与服务器进行了数据交互,获取到数据之后,再利用JavaScript改变网页,这样网页内容就会更新了。




通俗来讲:就像一栋房子,先把框框架架搭起来(前端页面框架),再给他装修、置办家具(填充数据),这里的装修、置办家具即是ajax请求的数据。。


我们可以通过一些网站的事例来直观的了解一下什么到底是什么是ajax。


例如访问“蘑菇街”电商平台中的食品类目:http://list.mogujie.com/book/food/52026,通过Chrome浏览器可以看到我们与“蘑菇街”交互的所有数据。


示范:

1

打开Chrome,访问

http://list.mogujie.com/book/food/52026

2

在Chrome中按F12或者在页面空白处点击鼠标右键→检查。

3

点击Clear 和 XHR 按钮。


4

刷新一下页面。  

5

点击一下左边的search?callback=JQuery….,再点击右边栏的Response其下方会出现一些看不懂,但又好像有点儿规则的数据。管他的,先Ctrl+A全选拷贝出来看看。(如果你把商品列表页继续下滑,会出现更多的这种数据哦。)

6

使用Chrome插件「JSON-hanle」或者访问:https://www.json.cn/将刚才拷贝的数据粘贴进去,点击OK。


7

 再与网页上的数据对比一下,见图:



怎么样?是不是一目了然,相关数据都在里面了。这里的orgPrice为原价、sale为销量、cfav为点赞、price为现价。这些数据都已经在这一串乱七八糟的字符里了,我们需要的就解析这串字符。


其实呢,这种数据格式叫做「Json」。json 是轻量级的文本数据交换格式,其格式与计算机语言中的字典(dict)类似,都是名称/值对(key/value)的格式。能拿到json数据就已经成功90%了,剩下的10%就是解析json拿出自己想要的数据、保存数据。但也不是所有的Ajax请求拿到的都是Json数据,例如亚马逊他就是这么66的。



下面将以我们日常能用到的,

爬取reviews来演练一遍Ajax请求:



1

访问某商品的所有reviews页面:https://www.amazon.com/product-reviews/  +  ASIN

2

reviews能按照我们预想的方式排列,在操作下图中的筛选条件后会生成新的链接。

如将SORT BY切换为Most recent,浏览器地址栏的链接会变为:https://www.amazon.com/product-reviews/B072DXSF6S/ref=cm_cr_arp_d_viewopt_srt?pageNumber=1&sortBy=recent


若直接使用requests.get该链接,返回的数据并不会按照预想的顺序排列。这种时候就需要抓包、Ajax请求登场了。


3

Chrome中按F12或者在页面空白处点击鼠标右键→检查。

4

首先点击Clear按钮,清除已捕获到的数据。再点击Next→按钮,看一下加载一页新的reviews会捕获到哪些数据。如下图,捕获到了一个名为“cm_cr_arp_d_paging_btm_3”的文件。最后点击Response,看一下这句文件到底传输了些什么。


5

如下图所示,在Response里的数据与网页前端页面的部分源码一致。可以认定,亚马逊是先将评论页面的框架搭好,然后通过Ajax的方式传输显示评论详情的前端代码。


6

再分析一下本次数据传输的headers、data等数据。这一步非常重要,在数据交互中各类请求头、请求参数都会影响本次请求的返回值。


在上图中已将一些关键的参数做了解释,方便大家理解。


7

下面就是敲代码时间了,按照之前的逻辑我们可以直接使用Ajax请求数据,然后根据返回的数据获取到reviews的网页源码,再加以解析。


首先准备好headers、cookies等数据。前期后童鞋表示headers什么的太难搞了,且不知道这里面花里胡哨的一堆是啥意思,今天告诉大家一个简便方法。首先在Chrome控制台抓到的数据上点击鼠标左键→Copy→Copy as cURL。如图:


再访问https://curl.trillworks.com/,在“curl command”中将刚才拷贝的cURL粘贴进去,右边将自动生成Python代码。如图:


嘿嘿嘿,爽不爽。现在只需要把右边的“Python requests”拷贝出来,粘贴到Pycharm里就可以跑起来啦,是不是美滋滋?。


8、打开Pycharm,新建项目,将代码拷贝进去。可以看到我们需要的headers, cookies, data全都已经备好了。稍微加工一下,跑一下看看。

response = requests.post('https://www.amazon.com/hz/reviews-render/ajax/reviews/get/', headers=headers, data=data)


印的为:                                            

这与刚才在Chrome看到的一样,证明我们成功获取到了数据。


9、将数据整理一下,并删除不需要的垃圾数据。

html_list = list(response.text.replace('&&&', '').split('
'))
reviews_html_list = html_list[
6:26]
print(len(reviews_html_list))
for i in reviews_html_list:
   
if len(i)==0:
        reviews_html_list.remove(i)


10、遍历整个列表取出每个评论的ID。

for reviews_html in reviews_html_list:
    frist_review_soup = BeautifulSoup(
eval(reviews_html)[2], 'lxml')
    review_id = frist_review_soup.find(
'div', 'a-section review')['id']


11、写一个解析review详情页的方法,方便调用。

def request_reviews_url(review_id):
    headers = {

       
'origin': 'https://www.amazon.com',
       
'accept-encoding': 'gzip, deflate, br',
       
'accept-language': 'zh-HK,zh-CN;q=0.9,zh;q=0.8',
       
'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
       
'content-type': 'application/x-www-form-urlencoded;charset=UTF-8',
       
'accept': 'text/html,*/*',
       
'referer': 'https://www.amazon.com/product-reviews/B00CJHZRW8/ref=cm_cr_arp_d_viewopt_srt?ie=UTF8&reviewerType=all_reviews&sortBy=helpful&pageNumber=1',
       
'authority': 'www.amazon.com',
       
'x-requested-with': 'XMLHttpRequest',
       
'dnt': '1',
   
}
    review_url =
'https://www.amazon.com/gp/customer-reviews/' + review_id
    review_html = requests.get(review_url
, headers=headers)
    review_soup = BeautifulSoup(review_html.text
, 'lxml')
    review_title = review_soup.find(
'a', 'review-title').text
   
print(review_title)
    review_author = review_soup.find(
'span', 'review-byline').text.replace('By', '')
   
print(review_author)
    review_date = review_soup.find(
'span', 'review-date').text.replace('on ', '')
   
print(review_date)
    review_text = review_soup.find(
'span', 'review-text').text
   
print(review_text)


这样就能完成让评论按要求排列,并爬取的需求了。附完整代码:

import requests
from bs4 import BeautifulSoup


def request_reviews_url(review_id):
    headers = {

       
'origin': 'https://www.amazon.com',
       
'accept-encoding': 'gzip, deflate, br',
       
'accept-language': 'zh-HK,zh-CN;q=0.9,zh;q=0.8',
       
'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
       
'content-type': 'application/x-www-form-urlencoded;charset=UTF-8',
       
'accept': 'text/html,*/*',
       
'referer': 'https://www.amazon.com/product-reviews/B00CJHZRW8/ref=cm_cr_arp_d_viewopt_srt?ie=UTF8&reviewerType=all_reviews&sortBy=helpful&pageNumber=1',
       
'authority': 'www.amazon.com',
       
'x-requested-with': 'XMLHttpRequest',
       
'dnt': '1',
   
}
    review_url =
'https://www.amazon.com/gp/customer-reviews/' + review_id
    review_html = requests.get(review_url
, headers=headers)
    review_soup = BeautifulSoup(review_html.text
, 'lxml')
    review_title = review_soup.find(
'a', 'review-title').text
   
print(review_title)
    review_author = review_soup.find(
'span', 'review-byline').text.replace('By', '')
   
print(review_author)
    review_date = review_soup.find(
'span', 'review-date').text.replace('on ', '')
   
print(review_date)
    review_text = review_soup.find(
'span', 'review-text').text
   
print(review_text)


if __name__ == '__main__':
    page =
1
   
headers = {
       
'origin': 'https://www.amazon.com',
       
'accept-encoding': 'gzip, deflate, br',
       
'accept-language': 'zh-HK,zh-CN;q=0.9,zh;q=0.8',
       
'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
       
'content-type': 'application/x-www-form-urlencoded;charset=UTF-8',
       
'accept': 'text/html,*/*',
       
'referer': 'https://www.amazon.com/product-reviews/B00CJHZRW8/ref=cm_cr_arp_d_viewopt_srt?ie=UTF8&reviewerType=all_reviews&sortBy=helpful&pageNumber=1',
       
'authority': 'www.amazon.com',
       
'x-requested-with': 'XMLHttpRequest',
       
'dnt': '1',
   
}
   
while 1:
        data = {
           
'sortBy': 'recent',
           
'reviewerType': 'all_reviews',
           
'formatType': '',
           
'mediaType': '',
           
'filterByStar': '',
           
'pageNumber': str(page),
           
'filterByKeyword': '',
           
'shouldAppend': 'undefined',
           
'deviceType': 'desktop',
           
# 'reftag': 'cm_cr_arp_d_viewopt_srt',
           
'pageSize': '10',
           
'asin': 'B072SS1NTM',
           
# 'scope': 'reviewsAjax1'
       
}
        response = requests.post(
'https://www.amazon.com/hz/reviews-render/ajax/reviews/get/', headers=headers, data=data)
        html_list =
list(response.text.replace('&&&', '').split(' '))
        reviews_html_list = html_list[
6:26]
       
for i in reviews_html_list:
           
if len(i) == 0:
                reviews_html_list.remove(i)
       
for reviews_html in reviews_html_list:
            frist_review_soup = BeautifulSoup(
eval(reviews_html)[2], 'lxml')
            review_id = frist_review_soup.find(
'div', 'a-section review')['id']
            request_reviews_url(review_id)
        page +=
1


爬虫中数据的分类主要有:结构化数据(json,xml等)和非结构化数据(HTML)。之前的文章中使用的案例都是从目标网站拿到非结构化数据然后使用正则表达式/xpath等解析,而今天讲是相对而言的结构化数据,可以使用json或xpath转换为Python对应的数据类型。寻找结构化数据可能在前期不好着手、找不到Post的正确URL,但一旦成功后将事半功倍。


照Web发展的趋势来看,以Ajax加载数据的方式将会越来越普遍。这种方式在Web开发上可以做到前后端分离,从而降低服务器直接渲染页面带来的压力。如果大家兴趣的话也可以自己动手尝试爬取一些其他网站的数据哟。


教了大家好几期的爬虫,大家有学会了的吗?觉得有用的小伙伴可以分享下朋友圈!或有什么问题,欢迎留言讨论哦!


往期精彩回顾
任佳伟:使用「Web Scraper」抓取商品信息
【Python爬虫】:使用「Selenium」+「Chromedriver」爬僵尸链接
【Python爬虫】:使用「Requests」+「bs4」写亚马逊爬虫


好文!必须点赞
免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签
沃尔玛推出新供应链策略“预付整合”,提升配送效率
沃尔玛推出一项新的供应链策略“Prepaid Consolidation(预付整合)”,旨在通过简化供应商入库物流流程,加快商品从供应端到门店及消费者的流转速度,同时降低整体运营成本,并进一步提升库存稳定性与服务效率。
eBay英国站将实施P&A品类30天免费退货及运费补贴
2026年6月8日起,eBay将在英国站点对符合条件的Parts & Accessories(P&A)商品实施新规,符合要求的商品将必须提供至少30天的免费退货服务和50%退货运费补贴机制。
2个月营收300万美元,TikTok直播拍卖正批量造富
撕开年中流量困局,TikTok开卷直播拍卖
Allegro进军乌克兰市场
波兰电商平台Allegro正计划进入乌克兰市场,并在分阶段推进其跨境电商布局。该项目将首先在2026年6月启动第一阶段。
多类目利润缩水,卖家打法大变天
跨境电商行业,近年来正在陷入“规模向上、利润向下”的怪圈。根据Marketplace Pulse的数据,2026年受调的年收入超20亿美元的181家电商平台卖家中,有高达69%的卖家利润表现不佳,其中有38.1%的卖家收入、利润双双下滑,同时还有30.9%的卖家收入虽有所增长,但利润率却停滞不前、甚至有所下降。图源:Marketplace Pulse在行业整体利润走低的背景下,亚马逊美国站多个核心类目的卖家也都感受到了经营压力。从家居厨房到办公用品,再到玩具品类,“盈利难”已成为诸多跨境卖家面临的共同挑战。
卖家达2.1万,TikTok Shop成西班牙第16大电商平台
数据显示,在2025年11月至2026年4月期间,TikTok Shop平台累计吸引约21,000家本地卖家入驻。
亚马逊品牌推广,如何创建个性化图片素材
亚马逊搜索结果页的注意力竞争已进入毫秒级,用户单次浏览搜索结果的平均停留时间不足3秒。在这一极短时间内,文字信息几乎无法被有效接收,图片素材成为决定用户是否点击广告的唯一决定性因素。多数卖家仍依赖产品白底图作为广告素材,导致广告在同质化的搜索结果中被淹没,点击率长期低于行业平均水平。本文基于亚马逊平台品牌推广广告的投放数据,从视觉设计、内容构建、优化三个维度,提供可直接复用的个性化图片素材创建方法,帮助卖家系统性提升广告点击率与销售额。一、图片素材对广告效果的决定性影响亚马逊品牌推广广告的展示位置集中在搜索结果页顶部与中部,同一页面通常会同时展示4-6组广告素材。
Etsy将实施儿童产品新规,新增多项禁售与安全要求
Etsy最新的“儿童与婴幼儿产品政策”将于2026年6月2日正式生效。该政策旨在进一步强化平台对儿童相关商品的安全管理,并明确部分儿童产品的禁售范围。
流量更贵、转化更难,亚马逊卖家2026全面承压
Jungle Scout发布了《2026年亚马逊基准测试报告》,报告系统性分析了2024年1月1日至2025年12月31日亚马逊美国站整体市场表现与2026年竞争环境,重点围绕美妆个护等品类洞察、竞争格局、广告与转化表现等维度展开。
亚马逊推出新品推荐标签,帮助卖家获取更多曝光
亚马逊将为平台上的部分新品自动添加“New Arrival(新品到货)”或“Notable Arrival(值得关注的新品)”徽章,以帮助消费者更容易发现新上架商品,同时提升新品的曝光度和前期销量表现。
靠“站外 2.0”,亚马逊亿级大卖实现百万美金增量!
ACOS狂飙之下,出海大卖为何转向站外联盟?
2026亚马逊Prime Day定档6月,最后27天运营冲刺手册
Prime Day仅剩27天,促销规则和费用模式全面翻新。本文拆解促销优选、广告分层、库存风控和利润守护四大模块,助你精算每一分钱。
28天卖了50万,中式菜刀在TikTok美区太好赚了!
中国菜刀在TikTok火了,跨境卖家靠其入账上百万
存跌落风险,美国CPSC紧急召回亚马逊在售儿童餐椅
美国消费品安全委员会宣布召回PandaEar品牌两款便携式挂桌儿童餐椅,原因是产品存在严重跌落风险,可能导致婴儿受伤甚至死亡。此次召回涉及约9700件产品,召回日期为2026年5月21日。
运营风向标!亚马逊7大核心品类洞察
本文章为Jungle Scout《2026年亚马逊基准测试报告》下半部分,主要内容为2024年1月1日至2025年12月31日亚马逊美国站,厨房、庭院、办公用品、宠物用品、运动户外、家装改进、玩具与游戏七个核心品类亚马逊市场分析;2026年卖家运营建议。
“多功能”护肤彩妆受欢迎,85%消费者开始关注成分
GlobalData发布的报告显示,将护肤与彩妆结合的“混合美妆”正在全球范围内快速升温。随着消费者开始追求更简单、更高效的个人护理流程,多功能产品正在成为越来越多消费者的新选择。
AMZ123《全球电商市场报告——俄罗斯篇》
全球格局也在分化。新兴市场依靠渗透率提升释放空间,成熟市场则在消费习惯与渠道格局的更迭中重塑增长逻辑。社交化购物、价格敏感度提升、平台多元化交织,使用户行为与市场秩序进入重构周期。
《美国电商领域美妆行业现状》PDF下载
“2025 年是护肤品风靡市场的一年。从去角质产品、精华液到红光美妆仪和韩式美妆热潮,所有人都热衷于追求有光泽的肌肤。消费者希望拥有真正有效的产品,而且喜欢在购买前先试用迷你装或套装。与此同时,A 正在悄然主导一切。
《韩国电商市场数据月报》PDF下载
韩国拥有全球第五大电子商务市场,2024年电商销售额超过千亿美元,预计到2026年将超过1600亿美元。这种快速增长主要得益于韩国高达97%的互联网普及率和对5G技术的早期采用。韩国消费者的购物习惯正迅速向线上转移,2023年线上购买已占总销售额的50.5%。此外,中韩自由贸易协定的签订进一步促进了两国之间的贸易合作,降低了关税壁垒,为中国品牌出海进入韩国市场创造了有利条件。
《出海中东指南》PDF下载
2025年开年以来,美国关税政策持续收紧,中美贸易关系的不确定性加剧,依赖美国市场的中国跨境卖家面临利润压缩与合规风险的双重挑战。在中美贸易摩擦持续深化的背景下,中东电商市场正成为跨境卖家多元化布局的战略要地。
《TikTok Shop 2024-2025西班牙站点报告》PDF下载
在全球社交电商高速发展的时代浪潮中,TikTok已然崛起为品牌与消费者深度互动的重要阵地。TikTok不仅重塑了用户的消费习惯,更开创了"发现式购物"的新模式,为品牌营销带来了前所未有的机遇与挑战
《2026全球女士内衣市场洞察白皮书》PDF下载
全球女士内衣市场正经历从基础功能型向场景驱动型的深刻变革。消费者需求持续向舒适性、功能细分及情感价值融合演变,推动品类创新与市场扩容。传统内衣巨头增长承压,以科技创新为核心的新兴品牌快速崛起,行业竞争格局加速重构。供应链向区域化与敏捷化调整,舒适革新、工艺创新、智能应用与可持续发展成为产品升级与品牌差异化的关键路径。
《TikTok Shop 2026 东南亚跨境出海经营白皮书2.0》PDF下载
在全球电商市场,TikTokShop正展现出强劲的发展活力。依托多场域电商经营模式,众多商家实现了业务的快速增长。白皮书系列依托于系统性梳理成功商家的实践经验与运营策略,希望助力更多商家高效入局,实现可持续发展。
《美客多墨西哥市场趋势洞察》PDF下载
美客多远不止是一个电商平台。这里映射着数百万墨西哥消费者的潮流趋势、喜好变化和日常消费选择。
AMZ123选品观察员
选品推荐及选品技巧分享。
欧洲电商资讯
AMZ123旗下欧洲跨境电商新闻栏目,专注欧洲跨境电商热点资讯,为广大卖家提供欧洲跨境电商最新动态、最热新闻。
跨境电商赢商荟
跨境电商行业唯一一家一年365天不断更的媒体!
亚马逊公告
AMZ123旗下亚马逊公告发布平台,实时更新亚马逊最新公告,致力打造最及时和有态度的亚马逊公告栏目!
亚马逊资讯
AMZ123旗下亚马逊资讯发布平台,专注亚马逊全球热点事件,为广大卖家提供亚马逊最新动态、最热新闻。
北美电商资讯
AMZ123旗下北美跨境电商新闻栏目,专注北美跨境电商热点资讯,为广大卖家提供北美跨境电商最新动态、最热新闻。
亚马逊全球开店
亚马逊全球开店官方公众号,致力于为中国跨境卖家提供最新,最全亚马逊全球开店资讯,运营干货分享及开店支持。
跨境电商干货集结
跨境电商干货集结,是结合亚马逊跨境电商卖家交流群内大家在交流过程中最常遇到的问题,进行收集整理,汇总解答,将会持续更新大家当前最常遇见的问题。欢迎大家加入跨境电商干货集结卖家交流群一起探讨。
首页
跨境头条
文章详情
咨询
官方微信群
官方客服

扫码添加,立即咨询

加群
官方微信群
官方微信群

扫码添加,拉你进群

更多
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯

回顶部