AMZ123跨境卖家导航
拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条文章详情

企业数据模型在业务应用上的实践

1947
2022-12-11 09:01
2022-12-11 09:01
1947

数智化建模

WBG的数据分析底层逻辑

现在大家频繁提及的“数智化”一词最早是2015年北京大学“知本财团”课题组提出的对“数字智商”(Digital Intelligence Quotient)的阐释,最初的定义是:数字智慧化与智慧数字化的合成。它有三层含义:一是“数字智慧化”,相当于云计算的“算法”,即在大数据中加入人的智慧,使数据增值增进,提高大数据的效用;二是“智慧数字化”,即运用数字技术,把人的智慧管理起来,相当于从“人工”到“智能”的提升,把人从繁杂的劳动中解脱出来;三是把这两个过程结合起来,构成人机的深度对话,使机器继承人的某些逻辑,实现深度学习,甚至能启智于人,即以智慧为纽带,人在机器中,机器在人中,形成人机一体的新生态。

图片

因此, 数智化是大数据应用的核心价值,需要经过商业理解、数据收集、数据处理、模型计算,模型评估和模型部署六个阶段,最终目的是将大数据应用延伸到具体的业务场景的每一个环节中,让数据说话,让管理可见。本文将从整体流程的角度剖析WBG的数据应用场景,详细介绍数据模型底层逻辑。
首先,数据来源主要包含第一方数据、第二方数据和第三方数据,其中,第一方数据是指企业内部数据,第二方数据指公网数据,第三方数据是合作方或友商提供的外部数据。
第一方数据,包含对个性化推荐起决定性作用的用户数据、商品或服务数据,物流配送、仓储库存和起辅助的作用的客服数据。举个例子,比如,用户数据包含但不限于用户属性、注册行为、活动参与、订单行为、支付行为、评价行为和售后行为等;商品或服务数据包含商品或服务的分类、品牌、参数、功能说明和生命周期等。

图片

第二方数据,通常是根据实际业务需求,通过网络爬虫的方式,获取互联网的相关数据信息,例如,竞争对手商品/服务分类数据、参数数据、功能说明和价格数据等,这一类的数据主要是用于完善用户行为偏好、自有商品或服务属性、与竞争对手对比优势、制定差异化营销策略及个性化推荐的辅助参考等。社交媒体类的数据主要是用于了解用户对企业、品牌和商品等各方面的舆情分析,及时抑制负面信息,同时挖掘用户的社交关系以及对商品或服务的真实需求,以此改善商品功能,完善服务流程,提升用户体验。
第三方数据,包括以合法方式通过合作伙伴获取处理后的用户标签数据,通过用户的标签数据可以了解用户的基本信息匹配度、用户的网络行为、兴趣偏好、上网习惯偏好和模糊地理信息等,通过这些信息,再结合第一方数据和第二方数据,有策略地进行个性化商品或服务的推荐。除此之外,还可以根据用户的综合消费系数、稳定系数、风险系数、多方面监控系数,以及对用户的综合信用分数评定等内容,针对用户的信用分数评级,为用户提供相应的优惠或特殊权益,增加用户的黏性。

图片

数据采集完成后, 才是大数据工作的重头戏——数智化数据分析的开始。数智化的数据分析工作需要用到模型的方法来做预测或者分类,建模分析的基本流程是:

1、了解数据
在拿到数据后,不能着急立刻开始清洗数据或者模型训练,而是要先了解数据(除建模分析外,其他的数据开发也要做这一步),这样才能避免后期的踩坑,否则十有八九是要复工的。
那“了解数据”这一环节,具体要了解哪些内容呢?

  • 了解各个特征的业务含义和计算逻辑;
  • 各个特征的分布是否符合预期?
  • 特征之间的相关性如何,是否符合基本逻辑?
  • 特征和目标值的相关性如何,是否符合基本逻辑?

在相关性分析这里,数值型变量之间可通过计算相关系数或者画图呈现;数值型变量和分类变量可通过箱线图呈现关系。
2 、补充信息
在初步了解数据后,需要做一些数据预处理的行为。
第一步就是对缺失值处理,一般根据样本量多少以及缺失比例,来判断是讲“宁缺毋滥”的删除,还是缺失值填充。
具体处理的思路可以是这样的:
统计计算样本量n,各个特征数据缺失率y,各样本数据特征缺失率x;
特征缺失率x比较高的样本一般都建议删除;因为多个特征都缺失,填补也比较困难,即使填补信息偏差也会比较大。
如果某特征缺失率y比较大,则删除此特征;如果特征缺失率低且样本量比较大的话,可删除特征缺失的样本;如果样本量少不可删除,则对缺失值做填充。
缺失值填充的方法有:

  • 根据特征的众数、中位数或者平均值来填充;

  • 也可以对样本做分类,根据所在类的平均值众数等填充;

  • 通过回归法来做样本填充,缺失值作为因变量,其他特征做自变量去预测;

  • 还可通过比较复杂的方法,如多重插补法。

图片
3、数据清洗
处理完缺失值后,需要做异常数据处理。
异常数据识别是数据分析和数据挖掘在正式分析前的数据处理,识别异常数据后,删除或者修正异常数据,避免异常数据影响分析结论;可以用于异常数据识别的方法有:时间序列数据异常识别、单变量数据异常识别、多变量数据异常识别。
其中,时间序列数据异常识别包括:设置恒定阈值、设定动态阈值-移动平均法、STL数据拆解法。

单变量数据异常识别方法包括:简单统计量分析、三倍标准差、箱线图;多变量数据异常识别是指,不只从一个特征去判读数据异常,而是在多个特征下来判断其是否异常。多变量异常数据识别的方法很多,比如聚类模型、孤立森林模型、one-class svm模型等。

4、数据标准化

对于很多模型,如线性回归、逻辑回归、Kmeans聚类等,需要计算不同特征的系数,或者计算样本距离。

这种情况下,如果不同特征的数值量级差别很大,会严重影响系数和距离的计算,甚至这种计算都会失去意义;所以在建模前必须要做的就是要去量纲,做标准化处理。当然有些模型是不需要做数据标准化处理的,如决策树、随机森林、朴素贝叶斯等。

当前最常用的数据标准化处理方法有:

1)最小—最大规范化

(x-min)/(max-min),将其规范到[0,1]之间

2)z值规范化

(x-均值)/标准差,将其规范为均值为0,标准差为1;
如果这种情况,受离群点影响比较大的话,可以用中位数代替均值,用绝对标准差代替标准差。还需要注意的是,如果样本分布偏差严重,可以先做box-cox变换,将其往正态分布变换后再标准化。

完成以上这四点工作后, 才能正式结合业务场景开始数据建模。

图片

业务场景-人群细分:

在产品极其丰富的今天,很难找出一种产品适用于所有人。即便是品牌能够吸引大多数人,如可口可乐,也不得不推出“零糖”可乐以满足一部分消费者的需求。因此,营销人员要清楚目标客户有哪些。通常情况下,品牌会应用客户细分来为特定的目标客户提供服务,有效利用渠道、推广等资源来吸引潜在客户。

传统的细分策略,通常以年龄、性别、住址、职业等为依据。然而,互联网时代让社群成为消费者沟通的主要渠道,消费者惊奇地发现,潜藏在他们内心的偏好、特质居然在各个社群中得到了呼应,因而这些偏好、特质被激发了出来。他们主动给自己贴上标签,如一个上班时间不苟言笑的CEO可能是“萌宠”的爱好者,穿Prada的“女王”却是个“猫奴”。消费者身上的标签数量剧增,这进一步促成了对消费者的细分。

毫无疑问,市场细分和消费者角色建设都依赖于各种各样的数据,包括第一方调查数据、定性焦点小组数据、购买数据、行为数据、在线跟踪数据等。随着Martech和大数据的出现,通过整合、分析各种来源不同的数据,企业能够获得的不是对消费者的简单解读,而是详尽的市场细分和消费者角色建设。

我们的CIS系统, 通过几百个数据增强源, 获得用户1700+的属性信息, 做完基本的数据清洗后, 需要做特征变换和特征选择。需要考虑特征的多重共线性和特征复杂度。先建立一组基础模型, 然后再选择基础模型进行组合, 得到更高维度的数据模型, 经过几次这样的迭代, 最终形成可用于展示呈现模型, 比如下图的『细分人群』:
图片
业务场景-自动人货匹配DM推送:
通常匹配由三个要素组成:匹配算法、人群、候选推荐项目。简单来说,一次匹配过程就是匹配算法从候选推荐项目中挑出某些项目给特定用户人群。

匹配模型就是要实现让系统作为导购(像向导一样引导购买),而不是推销员。不是无脑地推送信息和商品, 而是能够『察言观色』洞察用户的需求, 并且给他推荐最适合的商品。当然,不同商品,提升匹配成功率的手段也不同。比如, 场景式匹配,体验式匹配,陈列式匹配和价格式匹配等,综合这些要素,可以推导出导购型匹配的分析模型(如下):

图片

今天分享的内容是博鼎国际数据模型在业务场景上的流程和体现,模型训练前的数据分析、数据清洗以及特征选择非常重要,甚至他们是决定建模是否成功的关键因素,也就是数智化的底层逻辑。欢迎关注我们的公众号,了解更多行业和技术的信息。


免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签
30年印度电商将达2500亿美元,四大原因助力其增长
AMZ123获悉,近日,德勤与谷歌联合发布《2500亿美元的商业前沿》报告,基于对印度电商市场的交易数据、消费者调研及行业专家访谈,深度解析了当地网购行为变迁、市场格局特征及未来增长动力。核心发现如下:一、电商市场概况(一)整体市场规模2025年,印度电商市场已扩张至900亿美元。尽管线下零售仍占据近90%的市场份额,但电商正在从根本上改变印度消费者发现和购买的方式。从2019年到2025年,约1.1亿新在线购物者的加入,推动了市场的持续扩张。展望2030年,印度在线零售市场预计将增长3倍,达到2500亿美元。届时,人均电商支出将从目前的350-380美元增长至625-650美元,几乎翻倍。
电商平台高度集中与利润承压,26年卖家经营策略大变
AMZ123获悉,近日,Marketplace Pulse发布了《2026年电商卖家销售现状报告》。从卖家运营现状、利润情况、经营模式、物流策略、AI应用以及未来挑战等多个维度,系统分析了全球181位卖家(合计超过20亿美元年收入)的经营状态与结构性变化。报告揭示了一个核心趋势:电商卖家正处于利润持续压缩与电商平台高度集中的阶段。在这种情况下,卖家的经营重点发生了变化,从过去追求规模增长,转向更加注重风险控制和优化业务结构。一、卖家运营现状数据显示,当前电商卖家平均运营2.83个平台,覆盖80个不同平台。其中,亚马逊以92.8%的占比处于绝对主导地位,几乎成为所有卖家的必选平台。
Q1印度电商市场同比增长25%,消费信心回暖
AMZ123获悉,近日,Flipkart与贝恩公司联合发布的《2026印度线上消费报告》显示,2026年第一季度,印度电商市场同比增长25%。报告指出,这一增长主要受宏观经济改善和政策支持带动,消费者信心回升成为关键推动因素。从全年趋势来看,印度电商市场在2025年已呈现恢复态势。报告显示,2025年电商销售额同比增长19%至21%,其中下半年增速达到22%至24%,约为上半年同比增速的1.5倍。与此同时,印度电商GMV(商品交易总额)在过去五年实现翻倍增长,2025年达到650亿至660亿美元规模。消费端结构也在发生变化。报告指出,新增用户主要来自Z世代、二线及以下城市以及中等收入家庭。
3月波兰电商平台排名:Temu用户数第一
AMZ123获悉,近日,根据最新的Mediapanel数据,2026年3月波兰电商市场的用户竞争格局出现明显变化,Temu以约1910万用户位居第一,超过了波兰本土电商平台Allegro的1850万用户。除Temu和Allegro外,进入前十的电商平台还包括Media Expert(1320万用户)、Empik(960万用户)、AliExpress(960万用户)、Erli(870万用户)、Shein(830万用户)、Rossmann(780万用户)、亚马逊(770万用户)以及Vinted(695万用户)。
国产AI伴侣玩具,在TikTok拿下百万GMV
根据央视新闻3月报道,在“世界超市”义乌,搭载人工智能技术的玩具正成为外贸出口的新爆款。这些“会说话”的玩具在欧美、东南亚等市场量价齐升,成为拉动义乌出口增长的新引擎。官方的数据披露为AI玩具撕下了“伪需求”的刻板印象,同时在TikTok美区,与之相关的市场需求也得到了更为直接的数据印证。在TikTok美区,中国品牌「Unee」用旗下炙手可热的AI毛绒伴侣玩具,书写着有关AI商业落地的又一叙事。01近千元的玩具,成TikTok爆款TT123观察到,近7天TikTok美区娃娃与毛绒玩具类目的销售额TOP4,由中国品牌「Unee」旗下的AI毛绒伴侣玩具摘下,数据显示,一周以来这款产品共卖出2.89万美元。
AMZ123会员专享丨4月第2周资讯汇总
亚马逊亚马逊与USPS达成新的包裹配送协议,双方长期合作关系得以延续。根据知情人士透露,在新协议下,USPS将保留约80%的亚马逊包裹配送业务,规模超过每年10亿件,这一结果明显好于此前市场预期的削减三分之二甚至更多业务量的情况。瑞银全球研究部发布最新报告显示,亚马逊印度计划在10至15个主要城市逐步关停4至24小时送达的生鲜配送服务Amazon Fresh,转而全力押注快速电商Amazon Now。据The Information报道,亚马逊在2026年Prime Day前对卖家价格规则进行调整,卖家必须确保所设商品标价与最近在亚马逊或其他品牌的实际购买价格相符,以防止出现误导性促销。
TikTok Shop马来斋月销售额同比增长超130%
AMZ123获悉,近日,根据TikTok Shop发布的数据,2026年斋月和开斋节期间,TikTok Shop实现显著增长。数据显示,今年节日期间TikTok Shop销售额同比增长超过130%,成为马来西亚本地电商市场中增长较快的平台之一。此次增长与TikTok Shop推出的扶持政策密切相关。TikTok Shop表示,其通过#JomLokal Booster激励计划投入了2000万林吉特(RM20 million),为卖家提供支持,同时持续加大在购物安全方面的投入。这一计划自2025年9月推出以来,已为超过5000家中小微企业提供佣金减免支持,并组织了14场培训工作坊,用于提升新卖家的运营能力。
宠物电商平台Chewy收购兽医平台Modern Animal
AMZ123获悉,近日,美国宠物电商平台Chewy宣布,已签署最终协议收购兽医服务平台Modern Animal。此次收购被视为Chewy向“全链路宠物医疗生态系统”转型的重要一步,旨在将医疗服务、电商和相关服务整合在宠物生命周期的各个环节中。根据披露,Modern Animal目前拥有29家自营诊所,提供7×24小时虚拟医疗服务,并采用高留存率的会员制模式。通过此次交易,Chewy预计将新增超过1.25亿美元的年化收入规模,同时将其线下宠物医疗网络规模从原有的18家门店快速扩大至47家,实现线下服务能力的即时扩张。
Stripe与Meta合作,FB广告可完成一键结账
Fin123获悉,近日,Stripe宣布,为Facebook广告商推出全新结账体验,使消费者无需离开应用即可完成购买。通过这项功能,使用Stripe的卖家可以将Facebook广告与支付系统直接连接,买家点击广告中的“立即购买”按钮后,可使用Meta钱包中保存的支付凭证完成一键结账。该流程基于《智能体商务协议》,未来将扩展到包括Instagram广告在内的更多Meta平台。卖家可在Stripe管理平台中通过开关选择启用此功能,并关联其Meta广告账户。启用后,购买过程将完全嵌入广告体验,消除了用户在传统跳转浏览器或应用完成交易时的中断,从而提升购买转化率。
高评分+高销量,10款亚马逊厨房小家电热销产品一览
AMZ123获悉,近日,亚马逊各类产品搜索量增长显著,以下10款产品在亚马逊上销量表现突出,深受消费者欢迎。1. 电热水壶预计销售额:62万美元/月销量:24,200+星级评分:4.5好评数量:47,056+图源:亚马逊产品介绍:这款电热水壶内部无塑料,提升饮用安全性与口感纯净度。产品加热效率较高,可在3分钟内快速烧开一杯水,同时配备自动断电、加热指示灯、防干烧保护功能,保障使用安全。整体外观采用简约设计,宽口壶身与双角度开盖设计便于清洁与加水,精准壶嘴与防烫手柄提升倒水稳定性。
因产品数据质量不佳,印度电商每年损失五百亿卢比
AMZ123获悉,近日,据外媒报道,印度电商与快消行业正因产品数据质量不佳而蒙受巨额损失。据GS1印度公司的最新研究,不一致、不完整或不准确的产品信息每年导致约500亿卢比的资金流失。其中,约200亿卢比表现为毛利率下降,原因包括转化率降低、商品上架受限以及销售速度放缓;另有190亿卢比直接用于退货相关成本,涵盖逆向物流、处理与加工等环节。尤其在时尚服装领域,退货问题更为突出。因尺码不合、款式偏好或实物与描述不符,顾客主动退货率通常占总订单的20%至25%。Unicommerce指出,逆向物流会使订单价值额外增加5%至7%,而这还不含原始运费。放眼全球,时尚与鞋类退货率甚至可达30%至40%。
亚马逊再调FBA费用,4月17日起生效!
中东战火延宕至今,仍未有“熄火”之意。当地时间4月2日,特朗普在最新表态中发出警告,称美国将在未来两到三周内对伊朗进行猛烈打击,国际油价应声飙涨。截至当天收盘,5月交货的美国WTI原油价格收于每桶111.54美元,上涨11.41%;6月交货的国际基准布伦特原油价格则收于每桶109.03美元,涨幅高达7.78%。在此背景下,一系列“涨价通知”如同多米诺骨牌,正逐级传导至跨境卖家们的利润表上。全链路合规难题现场答疑,4.17 深圳 | 深圳商务局&行业专家坐镇,落地实操一站获取!点击报名AMZ123了解到,当地时间4月2日,亚马逊美国站发布了一则加征物流相关附加费的通知。
存火灾风险!美国CPSC紧急召回八款插头延长线
AMZ123获悉,近日,美国消费者产品安全委员会(CPSC)发布紧急召回警告,要求消费者立即停止使用“插头延长线”,并已与沃尔玛、eBay和AliExpress等电商平台达成协议,下架相关危险商品。CPSC指出,这类延长线两端均为公头插头,插入电源后裸露插脚可能带电,存在严重触电和火灾风险,因此在任何情况下都不应使用。为防止危险商品继续流入市场,CPSC已推动相关电商平台删除商品链接,同时平台方面承诺将主动识别并下架类似产品。根据CPSC的公告,多家来自中国的卖家和企业涉及销售该类产品,但大多数未回应CPSC关于召回或产品信息的要求。
别急着动广告!亚马逊订单骤降的真正元凶,用这个办法三分钟就能找到
希望这套从流量到转化率、从工具到方法的完整分析思路,能帮你: 少走弯路——别再凭感觉调广告 精准定位——用数据和工具锁定真实原因 快速响应——在问题扩大前及时出手 日常多关注、异常早发现、调整有依据——稳住单量,其实没那么难。
26年美国美妆消费者趋势:关税、AI、社媒影响购物决策
AMZ123获悉,随着新技术与平台不断涌现,不同世代美妆消费者的购物行为愈发复杂,不同产品类别对购买决策的影响也存在显著差异。同时,美国近年的关税政策与持续通胀也对市场格局造成影响,使品牌方面临竞争激烈且充满不确定性的环境。因此,Tinuiti发布了《2026年美妆营销研究报告》,从通胀影响到社交媒体趋势全面分析了消费者行为,以更好理解当前美国市场的美妆消费状况。一、市场现状1. 消费者对价格变化的反应数据显示,2025年美国美妆及个护电商市场规模已达到约610亿美元,电商渠道已占据接近一半的市场份额。随着技术进步和平台多样化,美容消费者的购物路径日益复杂。
美客多将在智利投资7.5亿美元,提供1200个岗位
AMZ123获悉,近日,据外媒报道,拉丁美洲电商巨头美客多计划在2026年向智利市场投入7.5亿美元,与2025年的投资规模相比,此番金额增幅达到27%。据了解,过去六年里,美客多在智利的累计投入已突破20亿美元,伴随新一轮的投资,预计2026年将为智利直接创造1200个新增就业岗位。值得注意的是,这笔巨额资金投入将流向物流基础设施的扩容与金融科技生态的完善。在物流端,美客多将在圣地亚哥启动第二个大型配送中心的建设,预计今年下半年即可投入使用。该中心能够存储超过1500万件商品,旨在直接拉高订单履约效率。此外,美客多还计划将物流网络向智利北部和南部延伸,试图弥合不同区域间网购体验的落差。
《全球产业深度研究之清真经济专题》PDF下载
印度尼西亚是全球最大清真消费市场,规模达到2650亿美元;马来西亚是全球认证标准输出中心;沙特阿拉伯是GCC(海湾阿拉伯国家合作委员会)具有战略价值的清真枢纽。这三个国家形成了清真消费三大市场占比60%。
《TikTok Shop2026欧美运动户外类目报告》PDF下载
欧美市场总GMV为15.11亿,整体结构呈现极度集中化的特征,其中美国站点的GMV高达12.32亿,占据了欧美市场的81.52%,月均GMV超过1.02亿。英国站点以 2.40亿的GMV和15.89%的份额位居第二。两大站点贡献了市场总GMV的97%以上。
《TikTok Shop2026东南亚运动户外类目报告》PDF下载
作为东南亚各站点的支柱品类,运动户外凭借其深厚的消费群体基础与高社交属性,相比其他品类规模优势显著,并在近12个月继续保持强劲增长。近一年内,东南亚地区该品类总GMV逼近百亿美元,其中泰国站表现尤为突出,GMV突破4.7亿美元;马印尼站紧随其后,GMV近4亿美元。
《2026中国新能源智能汽车产业链出海研究报告》PDF下载
海外主要汽车市场的国家/地区政策出现分化:以德国、意大利为代表的欧洲主要汽车生产国,携其本土汽车产业巨头,共同构成了推动欧盟调整“禁燃令”的主导力量。从本质上看,此次政策调整的进程,折射出欧盟内部不同国家与产业利益集团之间的复杂博弈。泰国、马来西亚和巴西现阶段开始偏好汽车产能的实际落地希望引入长期资本以支持当地的经济发展。
《2026中国电动微出行出海欧美市场研究报告》PDF下载
动微出行的产品开发逻辑向车规级演进:行业技术架构正加速向机械一电驱一智控体系演进,提升产品研发、安全标准与供应链体系。未来竞争的核心不再是单一的续航或功率参数,而是平台化能力、智能化深度与全生命周期服务体系的构建。
《TikTok Shop突破末次触达归因(LTA)ROAS分析报告》PDF下载
在数字化浪潮中,广告主正面临有效衡量广告支出回报率(ROAS)的挑战。传统未次触达归因(LTA)模型因数据收集难度和归因偏差问题已难以满足广告主的需求,因此,探索新的方法来解决这些问题显得尤为重要。
《未来电商报告:品牌独立站五步升级锁定未来确定性增长》PDF下载
调研显示,出海商家针对家居、时尚及消费电子等品类布局比例均超过30%。独立站凭借其高度品牌化、个性化、场景化及功能性等优势,精准契合上述品类对品牌调性、场景交互及沉浸式体验的核心诉求,正成为商家黑五大促期提升销量、构建品牌竞争壁垒的关键载体。
《TikTok Shop达人真实种草力报告》PDF下载
达人正在将文化内容、社群互动与商业转化深度融合,形成一个高度协同的内容商业生态,其价值早已不再局限于内容带来的直接收入。从更广义的商业视角来看,达人价值的核心在于真实影响力-即其内容对商品与服务产生影响并促成转化所形成的整体商业价值,这一能力正构成达人在内容电商体系中的带货价值基础。
侃侃跨境那些事儿
不侃废话,挣钱要紧!
AMZ123选品观察员
选品推荐及选品技巧分享。
跨境数据中心
聚合海量跨境数据,输出跨境研究智慧。
跨境电商赢商荟
跨境电商行业唯一一家一年365天不断更的媒体!
AMZ123跨境电商
专注跨境行业热点事件报道,每日坚持推送原创深度热文
跨境学院
跨境电商大小事,尽在跨境学院。
亚马逊资讯
AMZ123旗下亚马逊资讯发布平台,专注亚马逊全球热点事件,为广大卖家提供亚马逊最新动态、最热新闻。
北美电商资讯
AMZ123旗下北美跨境电商新闻栏目,专注北美跨境电商热点资讯,为广大卖家提供北美跨境电商最新动态、最热新闻。
首页
跨境头条
文章详情
企业数据模型在业务应用上的实践
WeBranding
2022-12-11 09:01
1947

数智化建模

WBG的数据分析底层逻辑

现在大家频繁提及的“数智化”一词最早是2015年北京大学“知本财团”课题组提出的对“数字智商”(Digital Intelligence Quotient)的阐释,最初的定义是:数字智慧化与智慧数字化的合成。它有三层含义:一是“数字智慧化”,相当于云计算的“算法”,即在大数据中加入人的智慧,使数据增值增进,提高大数据的效用;二是“智慧数字化”,即运用数字技术,把人的智慧管理起来,相当于从“人工”到“智能”的提升,把人从繁杂的劳动中解脱出来;三是把这两个过程结合起来,构成人机的深度对话,使机器继承人的某些逻辑,实现深度学习,甚至能启智于人,即以智慧为纽带,人在机器中,机器在人中,形成人机一体的新生态。

图片

因此, 数智化是大数据应用的核心价值,需要经过商业理解、数据收集、数据处理、模型计算,模型评估和模型部署六个阶段,最终目的是将大数据应用延伸到具体的业务场景的每一个环节中,让数据说话,让管理可见。本文将从整体流程的角度剖析WBG的数据应用场景,详细介绍数据模型底层逻辑。
首先,数据来源主要包含第一方数据、第二方数据和第三方数据,其中,第一方数据是指企业内部数据,第二方数据指公网数据,第三方数据是合作方或友商提供的外部数据。
第一方数据,包含对个性化推荐起决定性作用的用户数据、商品或服务数据,物流配送、仓储库存和起辅助的作用的客服数据。举个例子,比如,用户数据包含但不限于用户属性、注册行为、活动参与、订单行为、支付行为、评价行为和售后行为等;商品或服务数据包含商品或服务的分类、品牌、参数、功能说明和生命周期等。

图片

第二方数据,通常是根据实际业务需求,通过网络爬虫的方式,获取互联网的相关数据信息,例如,竞争对手商品/服务分类数据、参数数据、功能说明和价格数据等,这一类的数据主要是用于完善用户行为偏好、自有商品或服务属性、与竞争对手对比优势、制定差异化营销策略及个性化推荐的辅助参考等。社交媒体类的数据主要是用于了解用户对企业、品牌和商品等各方面的舆情分析,及时抑制负面信息,同时挖掘用户的社交关系以及对商品或服务的真实需求,以此改善商品功能,完善服务流程,提升用户体验。
第三方数据,包括以合法方式通过合作伙伴获取处理后的用户标签数据,通过用户的标签数据可以了解用户的基本信息匹配度、用户的网络行为、兴趣偏好、上网习惯偏好和模糊地理信息等,通过这些信息,再结合第一方数据和第二方数据,有策略地进行个性化商品或服务的推荐。除此之外,还可以根据用户的综合消费系数、稳定系数、风险系数、多方面监控系数,以及对用户的综合信用分数评定等内容,针对用户的信用分数评级,为用户提供相应的优惠或特殊权益,增加用户的黏性。

图片

数据采集完成后, 才是大数据工作的重头戏——数智化数据分析的开始。数智化的数据分析工作需要用到模型的方法来做预测或者分类,建模分析的基本流程是:

1、了解数据
在拿到数据后,不能着急立刻开始清洗数据或者模型训练,而是要先了解数据(除建模分析外,其他的数据开发也要做这一步),这样才能避免后期的踩坑,否则十有八九是要复工的。
那“了解数据”这一环节,具体要了解哪些内容呢?

  • 了解各个特征的业务含义和计算逻辑;
  • 各个特征的分布是否符合预期?
  • 特征之间的相关性如何,是否符合基本逻辑?
  • 特征和目标值的相关性如何,是否符合基本逻辑?

在相关性分析这里,数值型变量之间可通过计算相关系数或者画图呈现;数值型变量和分类变量可通过箱线图呈现关系。
2 、补充信息
在初步了解数据后,需要做一些数据预处理的行为。
第一步就是对缺失值处理,一般根据样本量多少以及缺失比例,来判断是讲“宁缺毋滥”的删除,还是缺失值填充。
具体处理的思路可以是这样的:
统计计算样本量n,各个特征数据缺失率y,各样本数据特征缺失率x;
特征缺失率x比较高的样本一般都建议删除;因为多个特征都缺失,填补也比较困难,即使填补信息偏差也会比较大。
如果某特征缺失率y比较大,则删除此特征;如果特征缺失率低且样本量比较大的话,可删除特征缺失的样本;如果样本量少不可删除,则对缺失值做填充。
缺失值填充的方法有:

  • 根据特征的众数、中位数或者平均值来填充;

  • 也可以对样本做分类,根据所在类的平均值众数等填充;

  • 通过回归法来做样本填充,缺失值作为因变量,其他特征做自变量去预测;

  • 还可通过比较复杂的方法,如多重插补法。

图片
3、数据清洗
处理完缺失值后,需要做异常数据处理。
异常数据识别是数据分析和数据挖掘在正式分析前的数据处理,识别异常数据后,删除或者修正异常数据,避免异常数据影响分析结论;可以用于异常数据识别的方法有:时间序列数据异常识别、单变量数据异常识别、多变量数据异常识别。
其中,时间序列数据异常识别包括:设置恒定阈值、设定动态阈值-移动平均法、STL数据拆解法。

单变量数据异常识别方法包括:简单统计量分析、三倍标准差、箱线图;多变量数据异常识别是指,不只从一个特征去判读数据异常,而是在多个特征下来判断其是否异常。多变量异常数据识别的方法很多,比如聚类模型、孤立森林模型、one-class svm模型等。

4、数据标准化

对于很多模型,如线性回归、逻辑回归、Kmeans聚类等,需要计算不同特征的系数,或者计算样本距离。

这种情况下,如果不同特征的数值量级差别很大,会严重影响系数和距离的计算,甚至这种计算都会失去意义;所以在建模前必须要做的就是要去量纲,做标准化处理。当然有些模型是不需要做数据标准化处理的,如决策树、随机森林、朴素贝叶斯等。

当前最常用的数据标准化处理方法有:

1)最小—最大规范化

(x-min)/(max-min),将其规范到[0,1]之间

2)z值规范化

(x-均值)/标准差,将其规范为均值为0,标准差为1;
如果这种情况,受离群点影响比较大的话,可以用中位数代替均值,用绝对标准差代替标准差。还需要注意的是,如果样本分布偏差严重,可以先做box-cox变换,将其往正态分布变换后再标准化。

完成以上这四点工作后, 才能正式结合业务场景开始数据建模。

图片

业务场景-人群细分:

在产品极其丰富的今天,很难找出一种产品适用于所有人。即便是品牌能够吸引大多数人,如可口可乐,也不得不推出“零糖”可乐以满足一部分消费者的需求。因此,营销人员要清楚目标客户有哪些。通常情况下,品牌会应用客户细分来为特定的目标客户提供服务,有效利用渠道、推广等资源来吸引潜在客户。

传统的细分策略,通常以年龄、性别、住址、职业等为依据。然而,互联网时代让社群成为消费者沟通的主要渠道,消费者惊奇地发现,潜藏在他们内心的偏好、特质居然在各个社群中得到了呼应,因而这些偏好、特质被激发了出来。他们主动给自己贴上标签,如一个上班时间不苟言笑的CEO可能是“萌宠”的爱好者,穿Prada的“女王”却是个“猫奴”。消费者身上的标签数量剧增,这进一步促成了对消费者的细分。

毫无疑问,市场细分和消费者角色建设都依赖于各种各样的数据,包括第一方调查数据、定性焦点小组数据、购买数据、行为数据、在线跟踪数据等。随着Martech和大数据的出现,通过整合、分析各种来源不同的数据,企业能够获得的不是对消费者的简单解读,而是详尽的市场细分和消费者角色建设。

我们的CIS系统, 通过几百个数据增强源, 获得用户1700+的属性信息, 做完基本的数据清洗后, 需要做特征变换和特征选择。需要考虑特征的多重共线性和特征复杂度。先建立一组基础模型, 然后再选择基础模型进行组合, 得到更高维度的数据模型, 经过几次这样的迭代, 最终形成可用于展示呈现模型, 比如下图的『细分人群』:
图片
业务场景-自动人货匹配DM推送:
通常匹配由三个要素组成:匹配算法、人群、候选推荐项目。简单来说,一次匹配过程就是匹配算法从候选推荐项目中挑出某些项目给特定用户人群。

匹配模型就是要实现让系统作为导购(像向导一样引导购买),而不是推销员。不是无脑地推送信息和商品, 而是能够『察言观色』洞察用户的需求, 并且给他推荐最适合的商品。当然,不同商品,提升匹配成功率的手段也不同。比如, 场景式匹配,体验式匹配,陈列式匹配和价格式匹配等,综合这些要素,可以推导出导购型匹配的分析模型(如下):

图片

今天分享的内容是博鼎国际数据模型在业务场景上的流程和体现,模型训练前的数据分析、数据清洗以及特征选择非常重要,甚至他们是决定建模是否成功的关键因素,也就是数智化的底层逻辑。欢迎关注我们的公众号,了解更多行业和技术的信息。


咨询
官方微信群
官方客服

扫码添加,立即咨询

加群
官方微信群
官方微信群

扫码添加,拉你进群

更多
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯

回顶部