企业数据模型在业务应用上的实践

WeBranding

2238

2022-12-11 09:01

2238

WeBranding

数智化建模

WBG的数据分析底层逻辑

现在大家频繁提及的“数智化”一词最早是2015年北京大学“知本财团”课题组提出的对“数字智商”（Digital Intelligence Quotient）的阐释，最初的定义是：数字智慧化与智慧数字化的合成。它有三层含义：一是“数字智慧化”，相当于云计算的“算法”，即在大数据中加入人的智慧，使数据增值增进，提高大数据的效用；二是“智慧数字化”，即运用数字技术，把人的智慧管理起来，相当于从“人工”到“智能”的提升，把人从繁杂的劳动中解脱出来；三是把这两个过程结合起来，构成人机的深度对话，使机器继承人的某些逻辑，实现深度学习，甚至能启智于人，即以智慧为纽带，人在机器中，机器在人中，形成人机一体的新生态。

因此，数智化是大数据应用的核心价值，需要经过商业理解、数据收集、数据处理、模型计算，模型评估和模型部署六个阶段，最终目的是将大数据应用延伸到具体的业务场景的每一个环节中，让数据说话，让管理可见。本文将从整体流程的角度剖析WBG的数据应用场景，详细介绍数据模型底层逻辑。

首先，数据来源主要包含第一方数据、第二方数据和第三方数据，其中，第一方数据是指企业内部数据，第二方数据指公网数据，第三方数据是合作方或友商提供的外部数据。

第一方数据,包含对个性化推荐起决定性作用的用户数据、商品或服务数据，物流配送、仓储库存和起辅助的作用的客服数据。举个例子，比如，用户数据包含但不限于用户属性、注册行为、活动参与、订单行为、支付行为、评价行为和售后行为等；商品或服务数据包含商品或服务的分类、品牌、参数、功能说明和生命周期等。

第二方数据,通常是根据实际业务需求，通过网络爬虫的方式，获取互联网的相关数据信息，例如，竞争对手商品/服务分类数据、参数数据、功能说明和价格数据等，这一类的数据主要是用于完善用户行为偏好、自有商品或服务属性、与竞争对手对比优势、制定差异化营销策略及个性化推荐的辅助参考等。社交媒体类的数据主要是用于了解用户对企业、品牌和商品等各方面的舆情分析，及时抑制负面信息，同时挖掘用户的社交关系以及对商品或服务的真实需求，以此改善商品功能，完善服务流程，提升用户体验。

第三方数据，包括以合法方式通过合作伙伴获取处理后的用户标签数据，通过用户的标签数据可以了解用户的基本信息匹配度、用户的网络行为、兴趣偏好、上网习惯偏好和模糊地理信息等，通过这些信息，再结合第一方数据和第二方数据，有策略地进行个性化商品或服务的推荐。除此之外，还可以根据用户的综合消费系数、稳定系数、风险系数、多方面监控系数，以及对用户的综合信用分数评定等内容，针对用户的信用分数评级，为用户提供相应的优惠或特殊权益，增加用户的黏性。

数据采集完成后，才是大数据工作的重头戏——数智化数据分析的开始。数智化的数据分析工作需要用到模型的方法来做预测或者分类，建模分析的基本流程是：

1、了解数据

在拿到数据后，不能着急立刻开始清洗数据或者模型训练，而是要先了解数据（除建模分析外，其他的数据开发也要做这一步），这样才能避免后期的踩坑，否则十有八九是要复工的。

那“了解数据”这一环节，具体要了解哪些内容呢？

了解各个特征的业务含义和计算逻辑；
各个特征的分布是否符合预期？
特征之间的相关性如何，是否符合基本逻辑？
特征和目标值的相关性如何，是否符合基本逻辑？

在相关性分析这里，数值型变量之间可通过计算相关系数或者画图呈现；数值型变量和分类变量可通过箱线图呈现关系。

2 、补充信息

在初步了解数据后，需要做一些数据预处理的行为。

第一步就是对缺失值处理，一般根据样本量多少以及缺失比例，来判断是讲“宁缺毋滥”的删除，还是缺失值填充。

具体处理的思路可以是这样的：

统计计算样本量n，各个特征数据缺失率y，各样本数据特征缺失率x；

特征缺失率x比较高的样本一般都建议删除；因为多个特征都缺失，填补也比较困难，即使填补信息偏差也会比较大。

如果某特征缺失率y比较大，则删除此特征；如果特征缺失率低且样本量比较大的话，可删除特征缺失的样本；如果样本量少不可删除，则对缺失值做填充。

缺失值填充的方法有：

根据特征的众数、中位数或者平均值来填充；
也可以对样本做分类，根据所在类的平均值众数等填充；
通过回归法来做样本填充，缺失值作为因变量，其他特征做自变量去预测；
还可通过比较复杂的方法，如多重插补法。

3、数据清洗

处理完缺失值后，需要做异常数据处理。

异常数据识别是数据分析和数据挖掘在正式分析前的数据处理，识别异常数据后，删除或者修正异常数据，避免异常数据影响分析结论；可以用于异常数据识别的方法有：时间序列数据异常识别、单变量数据异常识别、多变量数据异常识别。

其中，时间序列数据异常识别包括：设置恒定阈值、设定动态阈值－移动平均法、STL数据拆解法。

单变量数据异常识别方法包括：简单统计量分析、三倍标准差、箱线图；多变量数据异常识别是指，不只从一个特征去判读数据异常，而是在多个特征下来判断其是否异常。多变量异常数据识别的方法很多，比如聚类模型、孤立森林模型、one-class svm模型等。

4、数据标准化

对于很多模型，如线性回归、逻辑回归、Kmeans聚类等，需要计算不同特征的系数，或者计算样本距离。

这种情况下，如果不同特征的数值量级差别很大，会严重影响系数和距离的计算，甚至这种计算都会失去意义；所以在建模前必须要做的就是要去量纲，做标准化处理。当然有些模型是不需要做数据标准化处理的，如决策树、随机森林、朴素贝叶斯等。

当前最常用的数据标准化处理方法有：

1）最小—最大规范化

(x-min)/(max-min)，将其规范到[0,1]之间

2）z值规范化

(x-均值）/标准差，将其规范为均值为0，标准差为1；

如果这种情况，受离群点影响比较大的话，可以用中位数代替均值，用绝对标准差代替标准差。还需要注意的是，如果样本分布偏差严重，可以先做box-cox变换，将其往正态分布变换后再标准化。

完成以上这四点工作后，才能正式结合业务场景开始数据建模。

业务场景－人群细分：

在产品极其丰富的今天，很难找出一种产品适用于所有人。即便是品牌能够吸引大多数人，如可口可乐，也不得不推出“零糖”可乐以满足一部分消费者的需求。因此，营销人员要清楚目标客户有哪些。通常情况下，品牌会应用客户细分来为特定的目标客户提供服务，有效利用渠道、推广等资源来吸引潜在客户。

传统的细分策略，通常以年龄、性别、住址、职业等为依据。然而，互联网时代让社群成为消费者沟通的主要渠道，消费者惊奇地发现，潜藏在他们内心的偏好、特质居然在各个社群中得到了呼应，因而这些偏好、特质被激发了出来。他们主动给自己贴上标签，如一个上班时间不苟言笑的CEO可能是“萌宠”的爱好者，穿Prada的“女王”却是个“猫奴”。消费者身上的标签数量剧增，这进一步促成了对消费者的细分。

毫无疑问，市场细分和消费者角色建设都依赖于各种各样的数据，包括第一方调查数据、定性焦点小组数据、购买数据、行为数据、在线跟踪数据等。随着Martech和大数据的出现，通过整合、分析各种来源不同的数据，企业能够获得的不是对消费者的简单解读，而是详尽的市场细分和消费者角色建设。

我们的CIS系统，通过几百个数据增强源，获得用户1700+的属性信息，做完基本的数据清洗后，需要做特征变换和特征选择。需要考虑特征的多重共线性和特征复杂度。先建立一组基础模型，然后再选择基础模型进行组合，得到更高维度的数据模型，经过几次这样的迭代，最终形成可用于展示呈现模型，比如下图的『细分人群』：

业务场景－自动人货匹配DM推送：

通常匹配由三个要素组成：匹配算法、人群、候选推荐项目。简单来说，一次匹配过程就是匹配算法从候选推荐项目中挑出某些项目给特定用户人群。

匹配模型就是要实现让系统作为导购（像向导一样引导购买），而不是推销员。不是无脑地推送信息和商品，而是能够『察言观色』洞察用户的需求，并且给他推荐最适合的商品。当然，不同商品，提升匹配成功率的手段也不同。比如，场景式匹配，体验式匹配，陈列式匹配和价格式匹配等，综合这些要素，可以推导出导购型匹配的分析模型（如下）：

今天分享的内容是博鼎国际数据模型在业务场景上的流程和体现，模型训练前的数据分析、数据清洗以及特征选择非常重要，甚至他们是决定建模是否成功的关键因素，也就是数智化的底层逻辑。欢迎关注我们的公众号，了解更多行业和技术的信息。

免责声明

本文链接:

本文经作者许可发布在AMZ123跨境头条，如有疑问，请联系客服。

亚马逊卖家需要怎样制定一份周计划？什么是亚马逊个人销售计划？

亚马逊产品上架后如何维护listing？该怎么做？

最新热门报告作者标签

Ozon计划26年新增15个物流中心，投资超300亿卢布

俄罗斯电商平台Ozon表示，2026年计划在俄罗斯新增15个物流综合设施，其中包括大型全流程履约中心以及用于存储和处理大件商品的物流设施。

26年巴西情人节消费达220亿雷亚尔，服饰美妆成热门品类

2026年巴西情人节（Dia dos Namorados）消费超过220亿雷亚尔，服装、化妆品、香水和鞋类成为最受关注的消费品类。

每15秒售出一件，TikTok Shop英国宠物品类快速增长

TikTok Shop公布数据显示，2025年平台宠物护理品类销售额同比增长超过60%，宠物用品正在成为平台增长较快的消费类别之一。在英国市场，TikTok Shop平均每15秒售出一件宠物产品，宠物食品相关内容也持续增加，其中猫粮相关帖子数量超过82.5万条，狗粮相关帖子数量超过57.2万条。

26年1-4月美国玩具市场销售额增长13%，女性成为主力

2026年1月至4月期间，美国玩具行业超过一半的增长来自女性消费者。同时，18岁及以上成年消费者贡献了整个玩具行业35%的增长，成人消费正在成为推动市场扩张的重要因素。

AMZ123会员专享丨7月第2周资讯汇总

亚马逊亚马逊宣布与MyFlexBox达成战略合作，其德国所有智能快递柜将接入亚马逊配送体系，并成为欧洲首个向亚马逊开放的大规模中立柜机网络。用户在结账时可选24/7自提点，提升取件灵活性。合作旨在共建共享末端基础设施，覆盖零售点、加油站等场景，减少重复配送、提高效率。7月6日曝光的官方文件显示，亚马逊在华盛顿州新一轮裁撤57个岗位，涉及多条业务线，其中包含总监、高级经理等中高层管理岗。7月7日，亚马逊宣布，亚马逊全球智能枢纽仓正式落地华东地区，上海、宁波双仓正式启用。这是继GWD深圳首仓全面运营后，亚马逊在完善跨境物流网络上的又一关键布局。

TikTok美区推行三级架构保证金，风险保证金最高$10000

重磅！TikTok美区新增保证金，卖家速查后台

紧急调整！美国CPSC法规给卖家暂时“松绑”了

在跨境电商迈入升级赛道的当下，合规化浪潮正以迅雷不及掩耳之势席卷整个行业。一系列政策法规如同多米诺骨牌般接连落地，逐渐渗透到跨境电商产品质检、税务申报、物流清关等流程。其中在近期讨论热度最高的，莫过于美国最新生效的CPSC法规。进入7月以来，CPSC电子申报（eFiling）新规在业内被高频提及。据业内消息，按原定计划，自7月8日起，美国消费品安全委员会（CPSC）将联合美国海关与边境保护局（CBP）全面施行电子申报（eFiling）新规，所有受CPSC监管的进口消费品需在清关前完成GCC/CPC合格证书电子申报，未按要求申报可能导致清关延误或货件被拒、退运。

TikTok Shop美区保证金大改！金额不再统一，速查后台应缴额！

告别“多类目叠加”，卖家该如何应对？

26年亚马逊头部卖家格局生变，中国卖家占比升至55.9%

截至2026年7月，中国卖家在亚马逊美国站前10000名卖家占比已提升至55.9%，美国卖家则降至40.5%。仅过去12个月，中国卖家的份额就提升了3.8%。

紧急调整！美国CPSC法规给卖家暂时“松绑”了

AMZ123会员专享丨7月第2周资讯汇总

每15秒售出一件，TikTok Shop英国宠物品类快速增长

26年1-4月美国玩具市场销售额增长13%，女性成为主力

Ozon计划26年新增15个物流中心，投资超300亿卢布

俄罗斯电商平台Ozon表示，2026年计划在俄罗斯新增15个物流综合设施，其中包括大型全流程履约中心以及用于存储和处理大件商品的物流设施。

TikTok美区推行三级架构保证金，风险保证金最高$10000

重磅！TikTok美区新增保证金，卖家速查后台

26年巴西情人节消费达220亿雷亚尔，服饰美妆成热门品类

2026年巴西情人节（Dia dos Namorados）消费超过220亿雷亚尔，服装、化妆品、香水和鞋类成为最受关注的消费品类。

《全球宠物行业趋势与中国增长机遇报告》PDF下载

宠物行业全年的销售额为660亿美元与去年同期相比增长了2.1%。

《TikTok Shop 2024-2025 西班牙站点报告》PDF下载

在全球社交电商高速发展的时代浪潮中，TikTok已然崛起为品牌与消费者深度互动的重要阵地。TikTok不仅重塑了用户的消费习惯，更开创了"发现式购物"的新模式，为品牌营销带来了前所未有的机遇与挑战。

《2026年全球电商行业趋势洞察报告》PDF下载

报告深度解读 2026 年全球电商行业发展趋势，全面剖析移动端与网页端市场格局、各区域网站流量增长动态，以及综合电商、服饰电商、美妆电商等核心赛道的细分趋势与头部玩家表现。报告同步收录标杆案例，拆解Nykaa、0live Young、UNIQLO 等区域头部电商的业务亮点、广告策略与用户画像，为品牌制定精准市场策略提供决策参考。

《2026年电子元器件行业趋势与策略解读》PDF下载

据世界半导体贸易统计组织(WSTS)预测报告显示，2025年全球半导体营收将同比增长22.5%至7720亿美元，2026年将再度增长26.3%至9750亿美元，逼近1万亿美元大关;

《2025-Q1亚马逊沃尔玛全球电商CPC数据报告》PDF下载

我们整合了Pacvue和Helium 10的专有数据库，全方位展示行业内范围最广的电商数据。这份报告包括数万家大中小型规模，不同品类广告主的数据，以及几个主要品类的详细分析。

《男装休闲服装品类2026秋冬趋势报告》PDF现在

服装买家高度关注市场趋势，具有高频复购的特点，对趋势品的诉求相对更高，对于新品至少提前2-3个月进行采购且主要通过社媒获取服装趋势;

《美客多趋势报告-智利站》PDF下载

在当今的消费环境中，每一次购物都成为消费者身份的体现，反映出消费者的兴趣、欲望和价值观。这些选择受到时代和文化的影响，不仅展现了消费者的偏好，也塑造了消费者与市场的关系。

《拉美八国经贸与投资概览》PDF下载

中国与古巴1960年建立外交关系，正式开启了中国与拉美地区合作的新纪元。截至目前，中国已与26个拉美和加勒比国家建立外交关系，并同其中22个国家签署了共建“一带一路”合作文件，关系不断深化。

跨境学院

跨境电商大小事，尽在跨境学院。