AMZ123跨境卖家导航
拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条文章详情

企业数据模型在业务应用上的实践

2072
2022-12-11 09:01
2022-12-11 09:01
2072

数智化建模

WBG的数据分析底层逻辑

现在大家频繁提及的“数智化”一词最早是2015年北京大学“知本财团”课题组提出的对“数字智商”(Digital Intelligence Quotient)的阐释,最初的定义是:数字智慧化与智慧数字化的合成。它有三层含义:一是“数字智慧化”,相当于云计算的“算法”,即在大数据中加入人的智慧,使数据增值增进,提高大数据的效用;二是“智慧数字化”,即运用数字技术,把人的智慧管理起来,相当于从“人工”到“智能”的提升,把人从繁杂的劳动中解脱出来;三是把这两个过程结合起来,构成人机的深度对话,使机器继承人的某些逻辑,实现深度学习,甚至能启智于人,即以智慧为纽带,人在机器中,机器在人中,形成人机一体的新生态。

图片

因此, 数智化是大数据应用的核心价值,需要经过商业理解、数据收集、数据处理、模型计算,模型评估和模型部署六个阶段,最终目的是将大数据应用延伸到具体的业务场景的每一个环节中,让数据说话,让管理可见。本文将从整体流程的角度剖析WBG的数据应用场景,详细介绍数据模型底层逻辑。
首先,数据来源主要包含第一方数据、第二方数据和第三方数据,其中,第一方数据是指企业内部数据,第二方数据指公网数据,第三方数据是合作方或友商提供的外部数据。
第一方数据,包含对个性化推荐起决定性作用的用户数据、商品或服务数据,物流配送、仓储库存和起辅助的作用的客服数据。举个例子,比如,用户数据包含但不限于用户属性、注册行为、活动参与、订单行为、支付行为、评价行为和售后行为等;商品或服务数据包含商品或服务的分类、品牌、参数、功能说明和生命周期等。

图片

第二方数据,通常是根据实际业务需求,通过网络爬虫的方式,获取互联网的相关数据信息,例如,竞争对手商品/服务分类数据、参数数据、功能说明和价格数据等,这一类的数据主要是用于完善用户行为偏好、自有商品或服务属性、与竞争对手对比优势、制定差异化营销策略及个性化推荐的辅助参考等。社交媒体类的数据主要是用于了解用户对企业、品牌和商品等各方面的舆情分析,及时抑制负面信息,同时挖掘用户的社交关系以及对商品或服务的真实需求,以此改善商品功能,完善服务流程,提升用户体验。
第三方数据,包括以合法方式通过合作伙伴获取处理后的用户标签数据,通过用户的标签数据可以了解用户的基本信息匹配度、用户的网络行为、兴趣偏好、上网习惯偏好和模糊地理信息等,通过这些信息,再结合第一方数据和第二方数据,有策略地进行个性化商品或服务的推荐。除此之外,还可以根据用户的综合消费系数、稳定系数、风险系数、多方面监控系数,以及对用户的综合信用分数评定等内容,针对用户的信用分数评级,为用户提供相应的优惠或特殊权益,增加用户的黏性。

图片

数据采集完成后, 才是大数据工作的重头戏——数智化数据分析的开始。数智化的数据分析工作需要用到模型的方法来做预测或者分类,建模分析的基本流程是:

1、了解数据
在拿到数据后,不能着急立刻开始清洗数据或者模型训练,而是要先了解数据(除建模分析外,其他的数据开发也要做这一步),这样才能避免后期的踩坑,否则十有八九是要复工的。
那“了解数据”这一环节,具体要了解哪些内容呢?

  • 了解各个特征的业务含义和计算逻辑;
  • 各个特征的分布是否符合预期?
  • 特征之间的相关性如何,是否符合基本逻辑?
  • 特征和目标值的相关性如何,是否符合基本逻辑?

在相关性分析这里,数值型变量之间可通过计算相关系数或者画图呈现;数值型变量和分类变量可通过箱线图呈现关系。
2 、补充信息
在初步了解数据后,需要做一些数据预处理的行为。
第一步就是对缺失值处理,一般根据样本量多少以及缺失比例,来判断是讲“宁缺毋滥”的删除,还是缺失值填充。
具体处理的思路可以是这样的:
统计计算样本量n,各个特征数据缺失率y,各样本数据特征缺失率x;
特征缺失率x比较高的样本一般都建议删除;因为多个特征都缺失,填补也比较困难,即使填补信息偏差也会比较大。
如果某特征缺失率y比较大,则删除此特征;如果特征缺失率低且样本量比较大的话,可删除特征缺失的样本;如果样本量少不可删除,则对缺失值做填充。
缺失值填充的方法有:

  • 根据特征的众数、中位数或者平均值来填充;

  • 也可以对样本做分类,根据所在类的平均值众数等填充;

  • 通过回归法来做样本填充,缺失值作为因变量,其他特征做自变量去预测;

  • 还可通过比较复杂的方法,如多重插补法。

图片
3、数据清洗
处理完缺失值后,需要做异常数据处理。
异常数据识别是数据分析和数据挖掘在正式分析前的数据处理,识别异常数据后,删除或者修正异常数据,避免异常数据影响分析结论;可以用于异常数据识别的方法有:时间序列数据异常识别、单变量数据异常识别、多变量数据异常识别。
其中,时间序列数据异常识别包括:设置恒定阈值、设定动态阈值-移动平均法、STL数据拆解法。

单变量数据异常识别方法包括:简单统计量分析、三倍标准差、箱线图;多变量数据异常识别是指,不只从一个特征去判读数据异常,而是在多个特征下来判断其是否异常。多变量异常数据识别的方法很多,比如聚类模型、孤立森林模型、one-class svm模型等。

4、数据标准化

对于很多模型,如线性回归、逻辑回归、Kmeans聚类等,需要计算不同特征的系数,或者计算样本距离。

这种情况下,如果不同特征的数值量级差别很大,会严重影响系数和距离的计算,甚至这种计算都会失去意义;所以在建模前必须要做的就是要去量纲,做标准化处理。当然有些模型是不需要做数据标准化处理的,如决策树、随机森林、朴素贝叶斯等。

当前最常用的数据标准化处理方法有:

1)最小—最大规范化

(x-min)/(max-min),将其规范到[0,1]之间

2)z值规范化

(x-均值)/标准差,将其规范为均值为0,标准差为1;
如果这种情况,受离群点影响比较大的话,可以用中位数代替均值,用绝对标准差代替标准差。还需要注意的是,如果样本分布偏差严重,可以先做box-cox变换,将其往正态分布变换后再标准化。

完成以上这四点工作后, 才能正式结合业务场景开始数据建模。

图片

业务场景-人群细分:

在产品极其丰富的今天,很难找出一种产品适用于所有人。即便是品牌能够吸引大多数人,如可口可乐,也不得不推出“零糖”可乐以满足一部分消费者的需求。因此,营销人员要清楚目标客户有哪些。通常情况下,品牌会应用客户细分来为特定的目标客户提供服务,有效利用渠道、推广等资源来吸引潜在客户。

传统的细分策略,通常以年龄、性别、住址、职业等为依据。然而,互联网时代让社群成为消费者沟通的主要渠道,消费者惊奇地发现,潜藏在他们内心的偏好、特质居然在各个社群中得到了呼应,因而这些偏好、特质被激发了出来。他们主动给自己贴上标签,如一个上班时间不苟言笑的CEO可能是“萌宠”的爱好者,穿Prada的“女王”却是个“猫奴”。消费者身上的标签数量剧增,这进一步促成了对消费者的细分。

毫无疑问,市场细分和消费者角色建设都依赖于各种各样的数据,包括第一方调查数据、定性焦点小组数据、购买数据、行为数据、在线跟踪数据等。随着Martech和大数据的出现,通过整合、分析各种来源不同的数据,企业能够获得的不是对消费者的简单解读,而是详尽的市场细分和消费者角色建设。

我们的CIS系统, 通过几百个数据增强源, 获得用户1700+的属性信息, 做完基本的数据清洗后, 需要做特征变换和特征选择。需要考虑特征的多重共线性和特征复杂度。先建立一组基础模型, 然后再选择基础模型进行组合, 得到更高维度的数据模型, 经过几次这样的迭代, 最终形成可用于展示呈现模型, 比如下图的『细分人群』:
图片
业务场景-自动人货匹配DM推送:
通常匹配由三个要素组成:匹配算法、人群、候选推荐项目。简单来说,一次匹配过程就是匹配算法从候选推荐项目中挑出某些项目给特定用户人群。

匹配模型就是要实现让系统作为导购(像向导一样引导购买),而不是推销员。不是无脑地推送信息和商品, 而是能够『察言观色』洞察用户的需求, 并且给他推荐最适合的商品。当然,不同商品,提升匹配成功率的手段也不同。比如, 场景式匹配,体验式匹配,陈列式匹配和价格式匹配等,综合这些要素,可以推导出导购型匹配的分析模型(如下):

图片

今天分享的内容是博鼎国际数据模型在业务场景上的流程和体现,模型训练前的数据分析、数据清洗以及特征选择非常重要,甚至他们是决定建模是否成功的关键因素,也就是数智化的底层逻辑。欢迎关注我们的公众号,了解更多行业和技术的信息。


免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签
沃尔玛推出新供应链策略“预付整合”,提升配送效率
沃尔玛推出一项新的供应链策略“Prepaid Consolidation(预付整合)”,旨在通过简化供应商入库物流流程,加快商品从供应端到门店及消费者的流转速度,同时降低整体运营成本,并进一步提升库存稳定性与服务效率。
eBay英国站将实施P&A品类30天免费退货及运费补贴
2026年6月8日起,eBay将在英国站点对符合条件的Parts & Accessories(P&A)商品实施新规,符合要求的商品将必须提供至少30天的免费退货服务和50%退货运费补贴机制。
2个月营收300万美元,TikTok直播拍卖正批量造富
撕开年中流量困局,TikTok开卷直播拍卖
Allegro进军乌克兰市场
波兰电商平台Allegro正计划进入乌克兰市场,并在分阶段推进其跨境电商布局。该项目将首先在2026年6月启动第一阶段。
多类目利润缩水,卖家打法大变天
跨境电商行业,近年来正在陷入“规模向上、利润向下”的怪圈。根据Marketplace Pulse的数据,2026年受调的年收入超20亿美元的181家电商平台卖家中,有高达69%的卖家利润表现不佳,其中有38.1%的卖家收入、利润双双下滑,同时还有30.9%的卖家收入虽有所增长,但利润率却停滞不前、甚至有所下降。图源:Marketplace Pulse在行业整体利润走低的背景下,亚马逊美国站多个核心类目的卖家也都感受到了经营压力。从家居厨房到办公用品,再到玩具品类,“盈利难”已成为诸多跨境卖家面临的共同挑战。
卖家达2.1万,TikTok Shop成西班牙第16大电商平台
数据显示,在2025年11月至2026年4月期间,TikTok Shop平台累计吸引约21,000家本地卖家入驻。
亚马逊品牌推广,如何创建个性化图片素材
亚马逊搜索结果页的注意力竞争已进入毫秒级,用户单次浏览搜索结果的平均停留时间不足3秒。在这一极短时间内,文字信息几乎无法被有效接收,图片素材成为决定用户是否点击广告的唯一决定性因素。多数卖家仍依赖产品白底图作为广告素材,导致广告在同质化的搜索结果中被淹没,点击率长期低于行业平均水平。本文基于亚马逊平台品牌推广广告的投放数据,从视觉设计、内容构建、优化三个维度,提供可直接复用的个性化图片素材创建方法,帮助卖家系统性提升广告点击率与销售额。一、图片素材对广告效果的决定性影响亚马逊品牌推广广告的展示位置集中在搜索结果页顶部与中部,同一页面通常会同时展示4-6组广告素材。
Etsy将实施儿童产品新规,新增多项禁售与安全要求
Etsy最新的“儿童与婴幼儿产品政策”将于2026年6月2日正式生效。该政策旨在进一步强化平台对儿童相关商品的安全管理,并明确部分儿童产品的禁售范围。
流量更贵、转化更难,亚马逊卖家2026全面承压
Jungle Scout发布了《2026年亚马逊基准测试报告》,报告系统性分析了2024年1月1日至2025年12月31日亚马逊美国站整体市场表现与2026年竞争环境,重点围绕美妆个护等品类洞察、竞争格局、广告与转化表现等维度展开。
亚马逊推出新品推荐标签,帮助卖家获取更多曝光
亚马逊将为平台上的部分新品自动添加“New Arrival(新品到货)”或“Notable Arrival(值得关注的新品)”徽章,以帮助消费者更容易发现新上架商品,同时提升新品的曝光度和前期销量表现。
靠“站外 2.0”,亚马逊亿级大卖实现百万美金增量!
ACOS狂飙之下,出海大卖为何转向站外联盟?
2026亚马逊Prime Day定档6月,最后27天运营冲刺手册
Prime Day仅剩27天,促销规则和费用模式全面翻新。本文拆解促销优选、广告分层、库存风控和利润守护四大模块,助你精算每一分钱。
28天卖了50万,中式菜刀在TikTok美区太好赚了!
中国菜刀在TikTok火了,跨境卖家靠其入账上百万
存跌落风险,美国CPSC紧急召回亚马逊在售儿童餐椅
美国消费品安全委员会宣布召回PandaEar品牌两款便携式挂桌儿童餐椅,原因是产品存在严重跌落风险,可能导致婴儿受伤甚至死亡。此次召回涉及约9700件产品,召回日期为2026年5月21日。
运营风向标!亚马逊7大核心品类洞察
本文章为Jungle Scout《2026年亚马逊基准测试报告》下半部分,主要内容为2024年1月1日至2025年12月31日亚马逊美国站,厨房、庭院、办公用品、宠物用品、运动户外、家装改进、玩具与游戏七个核心品类亚马逊市场分析;2026年卖家运营建议。
“多功能”护肤彩妆受欢迎,85%消费者开始关注成分
GlobalData发布的报告显示,将护肤与彩妆结合的“混合美妆”正在全球范围内快速升温。随着消费者开始追求更简单、更高效的个人护理流程,多功能产品正在成为越来越多消费者的新选择。
AMZ123《全球电商市场报告——俄罗斯篇》
全球格局也在分化。新兴市场依靠渗透率提升释放空间,成熟市场则在消费习惯与渠道格局的更迭中重塑增长逻辑。社交化购物、价格敏感度提升、平台多元化交织,使用户行为与市场秩序进入重构周期。
《美国电商领域美妆行业现状》PDF下载
“2025 年是护肤品风靡市场的一年。从去角质产品、精华液到红光美妆仪和韩式美妆热潮,所有人都热衷于追求有光泽的肌肤。消费者希望拥有真正有效的产品,而且喜欢在购买前先试用迷你装或套装。与此同时,A 正在悄然主导一切。
《韩国电商市场数据月报》PDF下载
韩国拥有全球第五大电子商务市场,2024年电商销售额超过千亿美元,预计到2026年将超过1600亿美元。这种快速增长主要得益于韩国高达97%的互联网普及率和对5G技术的早期采用。韩国消费者的购物习惯正迅速向线上转移,2023年线上购买已占总销售额的50.5%。此外,中韩自由贸易协定的签订进一步促进了两国之间的贸易合作,降低了关税壁垒,为中国品牌出海进入韩国市场创造了有利条件。
《出海中东指南》PDF下载
2025年开年以来,美国关税政策持续收紧,中美贸易关系的不确定性加剧,依赖美国市场的中国跨境卖家面临利润压缩与合规风险的双重挑战。在中美贸易摩擦持续深化的背景下,中东电商市场正成为跨境卖家多元化布局的战略要地。
《TikTok Shop 2024-2025西班牙站点报告》PDF下载
在全球社交电商高速发展的时代浪潮中,TikTok已然崛起为品牌与消费者深度互动的重要阵地。TikTok不仅重塑了用户的消费习惯,更开创了"发现式购物"的新模式,为品牌营销带来了前所未有的机遇与挑战
《2026全球女士内衣市场洞察白皮书》PDF下载
全球女士内衣市场正经历从基础功能型向场景驱动型的深刻变革。消费者需求持续向舒适性、功能细分及情感价值融合演变,推动品类创新与市场扩容。传统内衣巨头增长承压,以科技创新为核心的新兴品牌快速崛起,行业竞争格局加速重构。供应链向区域化与敏捷化调整,舒适革新、工艺创新、智能应用与可持续发展成为产品升级与品牌差异化的关键路径。
《TikTok Shop 2026 东南亚跨境出海经营白皮书2.0》PDF下载
在全球电商市场,TikTokShop正展现出强劲的发展活力。依托多场域电商经营模式,众多商家实现了业务的快速增长。白皮书系列依托于系统性梳理成功商家的实践经验与运营策略,希望助力更多商家高效入局,实现可持续发展。
《美客多墨西哥市场趋势洞察》PDF下载
美客多远不止是一个电商平台。这里映射着数百万墨西哥消费者的潮流趋势、喜好变化和日常消费选择。
跨境平台资讯
AMZ123旗下跨境电商平台新闻栏目,专注全球跨境电商平台热点事件,为广大卖家提供跨境电商平台最新动态、最热新闻。
AMZ123跨境电商
专注跨境行业热点事件报道,每日坚持推送原创深度热文
AMZ123会员
「AMZ123会员」为出海者推出的一站式私享服务
AMZ123卖家导航
这个人很懒,还没有自我介绍
跨境电商干货集结
跨境电商干货集结,是结合亚马逊跨境电商卖家交流群内大家在交流过程中最常遇到的问题,进行收集整理,汇总解答,将会持续更新大家当前最常遇见的问题。欢迎大家加入跨境电商干货集结卖家交流群一起探讨。
跨境数据中心
聚合海量跨境数据,输出跨境研究智慧。
亚马逊全球开店
亚马逊全球开店官方公众号,致力于为中国跨境卖家提供最新,最全亚马逊全球开店资讯,运营干货分享及开店支持。
侃侃跨境那些事儿
不侃废话,挣钱要紧!
首页
跨境头条
文章详情
咨询
官方微信群
官方客服

扫码添加,立即咨询

加群
官方微信群
官方微信群

扫码添加,拉你进群

更多
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯

回顶部