AMZ123跨境卖家导航
拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条文章详情

企业数据模型在业务应用上的实践

1515
2022-12-11 09:01
2022-12-11 09:01
1515

数智化建模

WBG的数据分析底层逻辑

现在大家频繁提及的“数智化”一词最早是2015年北京大学“知本财团”课题组提出的对“数字智商”(Digital Intelligence Quotient)的阐释,最初的定义是:数字智慧化与智慧数字化的合成。它有三层含义:一是“数字智慧化”,相当于云计算的“算法”,即在大数据中加入人的智慧,使数据增值增进,提高大数据的效用;二是“智慧数字化”,即运用数字技术,把人的智慧管理起来,相当于从“人工”到“智能”的提升,把人从繁杂的劳动中解脱出来;三是把这两个过程结合起来,构成人机的深度对话,使机器继承人的某些逻辑,实现深度学习,甚至能启智于人,即以智慧为纽带,人在机器中,机器在人中,形成人机一体的新生态。

图片

因此, 数智化是大数据应用的核心价值,需要经过商业理解、数据收集、数据处理、模型计算,模型评估和模型部署六个阶段,最终目的是将大数据应用延伸到具体的业务场景的每一个环节中,让数据说话,让管理可见。本文将从整体流程的角度剖析WBG的数据应用场景,详细介绍数据模型底层逻辑。
首先,数据来源主要包含第一方数据、第二方数据和第三方数据,其中,第一方数据是指企业内部数据,第二方数据指公网数据,第三方数据是合作方或友商提供的外部数据。
第一方数据,包含对个性化推荐起决定性作用的用户数据、商品或服务数据,物流配送、仓储库存和起辅助的作用的客服数据。举个例子,比如,用户数据包含但不限于用户属性、注册行为、活动参与、订单行为、支付行为、评价行为和售后行为等;商品或服务数据包含商品或服务的分类、品牌、参数、功能说明和生命周期等。

图片

第二方数据,通常是根据实际业务需求,通过网络爬虫的方式,获取互联网的相关数据信息,例如,竞争对手商品/服务分类数据、参数数据、功能说明和价格数据等,这一类的数据主要是用于完善用户行为偏好、自有商品或服务属性、与竞争对手对比优势、制定差异化营销策略及个性化推荐的辅助参考等。社交媒体类的数据主要是用于了解用户对企业、品牌和商品等各方面的舆情分析,及时抑制负面信息,同时挖掘用户的社交关系以及对商品或服务的真实需求,以此改善商品功能,完善服务流程,提升用户体验。
第三方数据,包括以合法方式通过合作伙伴获取处理后的用户标签数据,通过用户的标签数据可以了解用户的基本信息匹配度、用户的网络行为、兴趣偏好、上网习惯偏好和模糊地理信息等,通过这些信息,再结合第一方数据和第二方数据,有策略地进行个性化商品或服务的推荐。除此之外,还可以根据用户的综合消费系数、稳定系数、风险系数、多方面监控系数,以及对用户的综合信用分数评定等内容,针对用户的信用分数评级,为用户提供相应的优惠或特殊权益,增加用户的黏性。

图片

数据采集完成后, 才是大数据工作的重头戏——数智化数据分析的开始。数智化的数据分析工作需要用到模型的方法来做预测或者分类,建模分析的基本流程是:

1、了解数据
在拿到数据后,不能着急立刻开始清洗数据或者模型训练,而是要先了解数据(除建模分析外,其他的数据开发也要做这一步),这样才能避免后期的踩坑,否则十有八九是要复工的。
那“了解数据”这一环节,具体要了解哪些内容呢?

  • 了解各个特征的业务含义和计算逻辑;
  • 各个特征的分布是否符合预期?
  • 特征之间的相关性如何,是否符合基本逻辑?
  • 特征和目标值的相关性如何,是否符合基本逻辑?

在相关性分析这里,数值型变量之间可通过计算相关系数或者画图呈现;数值型变量和分类变量可通过箱线图呈现关系。
2 、补充信息
在初步了解数据后,需要做一些数据预处理的行为。
第一步就是对缺失值处理,一般根据样本量多少以及缺失比例,来判断是讲“宁缺毋滥”的删除,还是缺失值填充。
具体处理的思路可以是这样的:
统计计算样本量n,各个特征数据缺失率y,各样本数据特征缺失率x;
特征缺失率x比较高的样本一般都建议删除;因为多个特征都缺失,填补也比较困难,即使填补信息偏差也会比较大。
如果某特征缺失率y比较大,则删除此特征;如果特征缺失率低且样本量比较大的话,可删除特征缺失的样本;如果样本量少不可删除,则对缺失值做填充。
缺失值填充的方法有:

  • 根据特征的众数、中位数或者平均值来填充;

  • 也可以对样本做分类,根据所在类的平均值众数等填充;

  • 通过回归法来做样本填充,缺失值作为因变量,其他特征做自变量去预测;

  • 还可通过比较复杂的方法,如多重插补法。

图片
3、数据清洗
处理完缺失值后,需要做异常数据处理。
异常数据识别是数据分析和数据挖掘在正式分析前的数据处理,识别异常数据后,删除或者修正异常数据,避免异常数据影响分析结论;可以用于异常数据识别的方法有:时间序列数据异常识别、单变量数据异常识别、多变量数据异常识别。
其中,时间序列数据异常识别包括:设置恒定阈值、设定动态阈值-移动平均法、STL数据拆解法。

单变量数据异常识别方法包括:简单统计量分析、三倍标准差、箱线图;多变量数据异常识别是指,不只从一个特征去判读数据异常,而是在多个特征下来判断其是否异常。多变量异常数据识别的方法很多,比如聚类模型、孤立森林模型、one-class svm模型等。

4、数据标准化

对于很多模型,如线性回归、逻辑回归、Kmeans聚类等,需要计算不同特征的系数,或者计算样本距离。

这种情况下,如果不同特征的数值量级差别很大,会严重影响系数和距离的计算,甚至这种计算都会失去意义;所以在建模前必须要做的就是要去量纲,做标准化处理。当然有些模型是不需要做数据标准化处理的,如决策树、随机森林、朴素贝叶斯等。

当前最常用的数据标准化处理方法有:

1)最小—最大规范化

(x-min)/(max-min),将其规范到[0,1]之间

2)z值规范化

(x-均值)/标准差,将其规范为均值为0,标准差为1;
如果这种情况,受离群点影响比较大的话,可以用中位数代替均值,用绝对标准差代替标准差。还需要注意的是,如果样本分布偏差严重,可以先做box-cox变换,将其往正态分布变换后再标准化。

完成以上这四点工作后, 才能正式结合业务场景开始数据建模。

图片

业务场景-人群细分:

在产品极其丰富的今天,很难找出一种产品适用于所有人。即便是品牌能够吸引大多数人,如可口可乐,也不得不推出“零糖”可乐以满足一部分消费者的需求。因此,营销人员要清楚目标客户有哪些。通常情况下,品牌会应用客户细分来为特定的目标客户提供服务,有效利用渠道、推广等资源来吸引潜在客户。

传统的细分策略,通常以年龄、性别、住址、职业等为依据。然而,互联网时代让社群成为消费者沟通的主要渠道,消费者惊奇地发现,潜藏在他们内心的偏好、特质居然在各个社群中得到了呼应,因而这些偏好、特质被激发了出来。他们主动给自己贴上标签,如一个上班时间不苟言笑的CEO可能是“萌宠”的爱好者,穿Prada的“女王”却是个“猫奴”。消费者身上的标签数量剧增,这进一步促成了对消费者的细分。

毫无疑问,市场细分和消费者角色建设都依赖于各种各样的数据,包括第一方调查数据、定性焦点小组数据、购买数据、行为数据、在线跟踪数据等。随着Martech和大数据的出现,通过整合、分析各种来源不同的数据,企业能够获得的不是对消费者的简单解读,而是详尽的市场细分和消费者角色建设。

我们的CIS系统, 通过几百个数据增强源, 获得用户1700+的属性信息, 做完基本的数据清洗后, 需要做特征变换和特征选择。需要考虑特征的多重共线性和特征复杂度。先建立一组基础模型, 然后再选择基础模型进行组合, 得到更高维度的数据模型, 经过几次这样的迭代, 最终形成可用于展示呈现模型, 比如下图的『细分人群』:
图片
业务场景-自动人货匹配DM推送:
通常匹配由三个要素组成:匹配算法、人群、候选推荐项目。简单来说,一次匹配过程就是匹配算法从候选推荐项目中挑出某些项目给特定用户人群。

匹配模型就是要实现让系统作为导购(像向导一样引导购买),而不是推销员。不是无脑地推送信息和商品, 而是能够『察言观色』洞察用户的需求, 并且给他推荐最适合的商品。当然,不同商品,提升匹配成功率的手段也不同。比如, 场景式匹配,体验式匹配,陈列式匹配和价格式匹配等,综合这些要素,可以推导出导购型匹配的分析模型(如下):

图片

今天分享的内容是博鼎国际数据模型在业务场景上的流程和体现,模型训练前的数据分析、数据清洗以及特征选择非常重要,甚至他们是决定建模是否成功的关键因素,也就是数智化的底层逻辑。欢迎关注我们的公众号,了解更多行业和技术的信息。


免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签
Lazada菲律宾电子产品GMV增长11倍,消费者购物更理性
AMZ123获悉,近日,Lazada菲律宾公布的双十二大促数据显示,菲律宾消费者的网购行为正在发生明显变化,相比冲动型下单,消费者更重视商品质量、正品保障和长期使用价值。这一变化表明,电商平台在节日购物季中的角色,正从“低价促销渠道”转向承载高价值、强信任型消费的重要场景。从具体数据来看,电子产品成为本次12.12期间表现最突出的品类,成交总额(GMV)较日常水平增长11倍。美妆和家居品类在LazMall(官方认证品牌专区)同样实现显著增长。Lazada指出,越来越多菲律宾家庭通过电商平台购买电子产品,包括智能设备、娱乐系统及日用家电,选购决策更强调耐用性与可靠性。
摩尔多瓦拟对跨境包裹征税,欧洲监管持续收紧
AMZ123获悉,近日,欧洲摩尔多瓦政府正推进针对跨境电商包裹的新一轮监管与征税措施,重点对象包括Temu、Shein、AliExpress等电商平台。据了解,摩尔多瓦政府正在与财政部制定新的法律和税收框架,以应对近年来跨境包裹数量激增以及由此带来的安全与公平竞争问题。摩尔多瓦政府表示,当前跨境小额包裹几乎处于“零监管、零税收”的状态,已难以持续。随着跨境电商迅速扩张,政府必须对该领域进行规范调整,不仅涉及经济层面的税收问题,也包括包裹内容的安全监管。政府指出,摩尔多瓦现行制度下,大量低价值商品进入国内市场,却缺乏明确的法律基础和有效审查机制,这在长期内对摩尔多瓦国家经济秩序和消费者安全构成风险。
快时尚冲击本土产业,拉美多国计划调整关税政策
AMZ123获悉,近日,随着中国超快时尚平台在拉美市场的迅速扩张,阿根廷、墨西哥、巴西、智利等多国立法机构和政府部门正计划或已推出针对中国超快时尚平台的进口限制和税收措施,试图保护本土纺织与服装产业。在全球范围内,Shein在2022年底至2023年底期间上线的新产品数量达到150万款,而Zara约为4万款、H&M约为2.3万款。市场研究机构Sensor Tower的数据显示,2025年上半年,Temu在拉丁美洲的月活跃用户同比增长143%,达到1.05亿。低价、快速上新和跨境直邮模式,使这些平台在拉美市场迅速占据份额。在阿根廷,Shein的受欢迎程度在近两年迅速攀升,尤其是在政府大幅放松进口管制之后。
扎心了,超7成跨境人今年无年终奖
年终奖取消,公司岌岌可危,跨境人:今年太难了
跨境电商的入场券,变了
2025年,跨境电商仍在增长,但增长的方式已悄然改写——它不再均匀洒向每一个卖家,而是像一场“定向灌溉”,愈发向头部与合规能力强的卖家集中。平台数据揭示出这一分化:2025年1—9月,亚马逊中国卖家上新数量同比提升近25%;销售额达到200万、500万、800万美元的卖家数量增幅均超过20%;而销售额超过1000万美元的头部卖家,增幅接近30%。这不是简单的强弱分化,而是一次行业的深层迁移:平台正在亲手改写规则,把“可控”定为第一要义。随之而来的,是三条谁都绕不开的趋势——它们共同把跨境电商,从过去的“流量快跑”,推向了如今的“系统耐力赛”。
25-cv-15218,可食用野生花卉海报版权维权进行时,跨境卖家注意TRO冻结风险!
本案是keith律所代理Botanical Arts Press LLC 针对其于2025年8月14获得美国版权认证的VA 2-458-669作品发起的版权维权案件
美国圣诞节后预计迎来退货高峰,退货率或将高出35%
AMZ123获悉,近日,Adobe最新发布的假日购物数据分析显示,2025年假日季至今,美国消费者的退货行为较去年同期有所放缓,但整体趋势仍需谨慎看待。11月1日至12月12日,线上购物退货量同比下降2.5%;而在黑五周(Cyber Week)结束后的7天内,退货量仅同比下降0.1%,降幅明显收窄。Adobe指出,当前的退货下降并不意味着假日季整体退货压力减轻。按照历史规律,圣诞节后将迎来集中退货高峰。预计12月26日至12月31日期间,退货量将较11月1日至12月12日这一阶段高出25%至35%。根据2024年假日季数据,每8笔退货中就有1笔发生在这一6天内,Adobe预计这一趋势将在今年延续。
11月波兰电商平台流量排名出炉,Allegro重返第一
AMZ123获悉,近日,Mediapane最新的l数据显示,波兰电商平台的流量排名在11月出现变化。波兰本土电商平台Allegro以1919万名用户重新夺回波兰电商访问量第一的位置,超过Temu的1910万名用户,结束了此前数月Temu持续领先的局面。对比来看,10月Temu仍明显领先,当月其用户规模达到1976万人,而Allegro为1897万人。Temu自今年3月首次超越Allegro后,连续多月位居榜首,但两者之间的用户差距始终不大。除Allegro和Temu外,11月的第三名为电子产品零售商Media Expert,用户规模为1340万人,较10月的1164万人明显增长。
抢攻新兴蓝海,一批中国卖家已爆单!
你眼中的非洲,是什么样的?偏远、贫瘠、基建差……在这些刻板印象的束缚下,过去很长一段时间里,许多卖家对于非洲的认知都停留在“待开发的潜力股”上,因此鲜少有人在攻略新城池时考虑到非洲电商市场。然而士别三日,当刮目相看。如今去到非洲国家,这样的场景已十分普遍:尼日利亚拉各斯的街头,电商配送车穿梭在车流中,装载着从中国跨境而来的电子产品与时尚服饰;在肯尼亚内罗毕的社区,年轻人正在Jumia的橙色自提点前排起长队,领取他们通过手机订购的中国商品。 这片被误解的电商新大陆,正在成为藏金纳银的财富洼地。
新入口曝光!亚马逊广告后台新增 Prompts(提示词)功能
今日分享「结合数据高效优化老品广告」
亚马逊如何结合竞价,优化广告位置表现
在亚马逊平台的标品运营中,流量结构的精准布局是决定 ASIN 成长效率与成熟期收益的核心要素之一。标品(如标准化 3C 配件、家居日用品等)具有用户决策链路短、搜索意图明确的特征,其流量资源的分配需高度聚焦于高转化曝光位。本文将系统解析适用于标品成长 / 成熟期 ASIN 的流量结构”,明确其逻辑框架、落地步骤与效果验证,为新人卖家提供可复用的运营范式。一、模式 1 的核心定义与适配场景模式 1 是针对标品成长 / 成熟期 ASIN设计的流量结构策略,其核心特征为 “三角形流量布局”—— 即通过资源倾斜,将大部分流量集中于 “搜索结果首页首位” 这一核心曝光位。
25年健康品牌TOP10榜单出炉,功能型健康产品爆火
AMZ123获悉,近日,AI 市场研究平台 Spate 基于 Google、TikTok 和 Instagram 的搜索与互动数据,对健康品牌的年度热度变化进行了统计,整理出 2025 年最受关注、同比增长最快的十大健康品牌。随着“长寿”“功能性健康”等议题持续升温,线上健康消费品牌的关注度在2025年显著提升。这些品牌主要集中在营养补充、功能性食品、运动营养和情绪健康等领域,反映出消费者在压力管理、肠道健康、能量补充和整体健康管理方面的需求持续扩大。数据显示,2025 年热度排名第一的品牌为 Goli,其年度“人气指数”增长达 15 亿次,同比提升 217%。
美国圣诞节后预计迎来退货高峰,退货率或将高出35%
AMZ123获悉,近日,Adobe最新发布的假日购物数据分析显示,2025年假日季至今,美国消费者的退货行为较去年同期有所放缓,但整体趋势仍需谨慎看待。11月1日至12月12日,线上购物退货量同比下降2.5%;而在黑五周(Cyber Week)结束后的7天内,退货量仅同比下降0.1%,降幅明显收窄。Adobe指出,当前的退货下降并不意味着假日季整体退货压力减轻。按照历史规律,圣诞节后将迎来集中退货高峰。预计12月26日至12月31日期间,退货量将较11月1日至12月12日这一阶段高出25%至35%。根据2024年假日季数据,每8笔退货中就有1笔发生在这一6天内,Adobe预计这一趋势将在今年延续。
德国对Temu展开反垄断调查,定价机制受关注
AMZ123获悉,近日,据外媒报道,德国联邦卡特尔局(Bundeskartellamt)已正式对Temu德国母公司Whaleco Technology Limited启动反垄断调查,重点审查其在平台运营中是否存在限制卖家定价自由的行为。该公司注册地位于爱尔兰都柏林,此次调查源于德国零售协会(HDE)于今年4月向监管机构提交的正式投诉。调查核心为Temu是否违反德国及欧盟层面的“卡特尔禁令”。相关法律明确禁止具有竞争限制效果的协议或行为,若构成违法,最高可处以企业年度营业额10%的高额罚款。德国监管机构怀疑,Temu通过其卖家合作条款,对入驻卖家的价格制定施加不当限制,从而削弱市场竞争。
亚马逊走9810退税模式的灵魂拷问!
亚马逊走9810退税模式的灵魂拷问!
亚马逊大规模误判!大批卖家链接遭下架
整改商品信息+提交精准申诉
《亚马逊生活日用品类攻略手册》PDF下载
作为日常生活不可或缺的重要组成,生活百货品类覆盖范围广泛,包括家居用品、家具、车用配件、户外装备、园艺 工具、运动器材、家装用品、厨房、玩具以及宠物用品等众多领域。这类产品不仅是满足基本生活所需,更体现了人们对美好生活的向往和追求。
《掘金泰国-市场洞察与战略机遇报告2025》PDF下载
随着全球经济一体化的加速,泰国作为东盟的核心枢纽,凭借其独特的地缘优势庞大的消费市场以及持续优化的营商环境,成为众多企业战略布局的重要目标。本报告深入剖析泰国市场的政策红利、消费趋势、产业机遇以及合规挑战,旨在为有志于开拓泰国市场的中国企业提供行动指南,助力企业在东盟这片充满活力的土地上把握机遇、应对挑战、!实现可持续发展。
《2025欧美假日购物季营销指南》PDF下载
2025年美国假日购物季零售额预计同比仅增长1.2%,总销售额约1.359万亿美元,虽仍保持正增长,但为2009年以来最低增速,市场正在步入低增长的新常态。
《2025年跨境电商东南亚市场进入战略白皮书》PDF下载
东南亚电商,正以惊人的速度复刻中国电商高速增长的黄金时代。2024年东南亚电商GMV达到1284亿美元,短短5年涨幅超过3倍。全球电商2024年GMV增幅最快的十大市场中,东南亚独占四席。东南亚是拥有约6.7亿人口的广阔市场,在现今全球关税的不确定性大格局下,因其电商基建完善,利好的贸易政策,和更高的年轻人口占比,成为跨境卖家生意拓张焦点之一。
《2025年TikTok Shop玩具品类行业报告(欧美站)》PDF下载
分析TikTok Shop美国市场、英国市场、西班牙市场、墨西哥市场等主流市场点短视频及直播电商数据,选取TikTok与玩具爱好品类相关的内容进行分析报告。
《2025 洗护品类趋势与创新洞察》PDF下载
本报告独特价值:将消费者的“行为结果”据),揭示消费者深层心理动机、并能精准预判未来增长机会
《亚马逊双轨增长指南》PDF下载
亚马逊以“以客户为中心”为核心理念,通过整合B2B与B2C的全渠道服务,帮助卖家实现“一店双拓”-- 一次上架,同步触达个人消费者与企业买家,获得双重收益。同时,基于Direct to Buyer(直接触达买家)的模式,更能有效减少中间环节,提升利润空间与品牌掌控力。
《亚马逊全球线上商采趋势与区域洞察》PDF下载
随着全球企业数字化转型的深入推进,B2B商采有望成为下一个万亿级别的蓝海市场然而,中国卖家在开拓海外企业商采市场时往往面临着一个关键挑战:难以准确把握海外企业买家的商采行为和决策模式。这种认知偏差不仅影响了产品开发方向,也制约了市场拓展策略的制定。
AMZ123卖家导航
这个人很懒,还没有自我介绍
北美电商资讯
AMZ123旗下北美跨境电商新闻栏目,专注北美跨境电商热点资讯,为广大卖家提供北美跨境电商最新动态、最热新闻。
AMZ123选品观察员
选品推荐及选品技巧分享。
跨境数据中心
聚合海量跨境数据,输出跨境研究智慧。
跨境学院
跨境电商大小事,尽在跨境学院。
AMZ123会员
「AMZ123会员」为出海者推出的一站式私享服务
亿邦动力网
消除一切电商知识鸿沟,每日发布独家重磅新闻。
亚马逊资讯
AMZ123旗下亚马逊资讯发布平台,专注亚马逊全球热点事件,为广大卖家提供亚马逊最新动态、最热新闻。
首页
跨境头条
文章详情
企业数据模型在业务应用上的实践
WeBranding
2022-12-11 09:01
1515

数智化建模

WBG的数据分析底层逻辑

现在大家频繁提及的“数智化”一词最早是2015年北京大学“知本财团”课题组提出的对“数字智商”(Digital Intelligence Quotient)的阐释,最初的定义是:数字智慧化与智慧数字化的合成。它有三层含义:一是“数字智慧化”,相当于云计算的“算法”,即在大数据中加入人的智慧,使数据增值增进,提高大数据的效用;二是“智慧数字化”,即运用数字技术,把人的智慧管理起来,相当于从“人工”到“智能”的提升,把人从繁杂的劳动中解脱出来;三是把这两个过程结合起来,构成人机的深度对话,使机器继承人的某些逻辑,实现深度学习,甚至能启智于人,即以智慧为纽带,人在机器中,机器在人中,形成人机一体的新生态。

图片

因此, 数智化是大数据应用的核心价值,需要经过商业理解、数据收集、数据处理、模型计算,模型评估和模型部署六个阶段,最终目的是将大数据应用延伸到具体的业务场景的每一个环节中,让数据说话,让管理可见。本文将从整体流程的角度剖析WBG的数据应用场景,详细介绍数据模型底层逻辑。
首先,数据来源主要包含第一方数据、第二方数据和第三方数据,其中,第一方数据是指企业内部数据,第二方数据指公网数据,第三方数据是合作方或友商提供的外部数据。
第一方数据,包含对个性化推荐起决定性作用的用户数据、商品或服务数据,物流配送、仓储库存和起辅助的作用的客服数据。举个例子,比如,用户数据包含但不限于用户属性、注册行为、活动参与、订单行为、支付行为、评价行为和售后行为等;商品或服务数据包含商品或服务的分类、品牌、参数、功能说明和生命周期等。

图片

第二方数据,通常是根据实际业务需求,通过网络爬虫的方式,获取互联网的相关数据信息,例如,竞争对手商品/服务分类数据、参数数据、功能说明和价格数据等,这一类的数据主要是用于完善用户行为偏好、自有商品或服务属性、与竞争对手对比优势、制定差异化营销策略及个性化推荐的辅助参考等。社交媒体类的数据主要是用于了解用户对企业、品牌和商品等各方面的舆情分析,及时抑制负面信息,同时挖掘用户的社交关系以及对商品或服务的真实需求,以此改善商品功能,完善服务流程,提升用户体验。
第三方数据,包括以合法方式通过合作伙伴获取处理后的用户标签数据,通过用户的标签数据可以了解用户的基本信息匹配度、用户的网络行为、兴趣偏好、上网习惯偏好和模糊地理信息等,通过这些信息,再结合第一方数据和第二方数据,有策略地进行个性化商品或服务的推荐。除此之外,还可以根据用户的综合消费系数、稳定系数、风险系数、多方面监控系数,以及对用户的综合信用分数评定等内容,针对用户的信用分数评级,为用户提供相应的优惠或特殊权益,增加用户的黏性。

图片

数据采集完成后, 才是大数据工作的重头戏——数智化数据分析的开始。数智化的数据分析工作需要用到模型的方法来做预测或者分类,建模分析的基本流程是:

1、了解数据
在拿到数据后,不能着急立刻开始清洗数据或者模型训练,而是要先了解数据(除建模分析外,其他的数据开发也要做这一步),这样才能避免后期的踩坑,否则十有八九是要复工的。
那“了解数据”这一环节,具体要了解哪些内容呢?

  • 了解各个特征的业务含义和计算逻辑;
  • 各个特征的分布是否符合预期?
  • 特征之间的相关性如何,是否符合基本逻辑?
  • 特征和目标值的相关性如何,是否符合基本逻辑?

在相关性分析这里,数值型变量之间可通过计算相关系数或者画图呈现;数值型变量和分类变量可通过箱线图呈现关系。
2 、补充信息
在初步了解数据后,需要做一些数据预处理的行为。
第一步就是对缺失值处理,一般根据样本量多少以及缺失比例,来判断是讲“宁缺毋滥”的删除,还是缺失值填充。
具体处理的思路可以是这样的:
统计计算样本量n,各个特征数据缺失率y,各样本数据特征缺失率x;
特征缺失率x比较高的样本一般都建议删除;因为多个特征都缺失,填补也比较困难,即使填补信息偏差也会比较大。
如果某特征缺失率y比较大,则删除此特征;如果特征缺失率低且样本量比较大的话,可删除特征缺失的样本;如果样本量少不可删除,则对缺失值做填充。
缺失值填充的方法有:

  • 根据特征的众数、中位数或者平均值来填充;

  • 也可以对样本做分类,根据所在类的平均值众数等填充;

  • 通过回归法来做样本填充,缺失值作为因变量,其他特征做自变量去预测;

  • 还可通过比较复杂的方法,如多重插补法。

图片
3、数据清洗
处理完缺失值后,需要做异常数据处理。
异常数据识别是数据分析和数据挖掘在正式分析前的数据处理,识别异常数据后,删除或者修正异常数据,避免异常数据影响分析结论;可以用于异常数据识别的方法有:时间序列数据异常识别、单变量数据异常识别、多变量数据异常识别。
其中,时间序列数据异常识别包括:设置恒定阈值、设定动态阈值-移动平均法、STL数据拆解法。

单变量数据异常识别方法包括:简单统计量分析、三倍标准差、箱线图;多变量数据异常识别是指,不只从一个特征去判读数据异常,而是在多个特征下来判断其是否异常。多变量异常数据识别的方法很多,比如聚类模型、孤立森林模型、one-class svm模型等。

4、数据标准化

对于很多模型,如线性回归、逻辑回归、Kmeans聚类等,需要计算不同特征的系数,或者计算样本距离。

这种情况下,如果不同特征的数值量级差别很大,会严重影响系数和距离的计算,甚至这种计算都会失去意义;所以在建模前必须要做的就是要去量纲,做标准化处理。当然有些模型是不需要做数据标准化处理的,如决策树、随机森林、朴素贝叶斯等。

当前最常用的数据标准化处理方法有:

1)最小—最大规范化

(x-min)/(max-min),将其规范到[0,1]之间

2)z值规范化

(x-均值)/标准差,将其规范为均值为0,标准差为1;
如果这种情况,受离群点影响比较大的话,可以用中位数代替均值,用绝对标准差代替标准差。还需要注意的是,如果样本分布偏差严重,可以先做box-cox变换,将其往正态分布变换后再标准化。

完成以上这四点工作后, 才能正式结合业务场景开始数据建模。

图片

业务场景-人群细分:

在产品极其丰富的今天,很难找出一种产品适用于所有人。即便是品牌能够吸引大多数人,如可口可乐,也不得不推出“零糖”可乐以满足一部分消费者的需求。因此,营销人员要清楚目标客户有哪些。通常情况下,品牌会应用客户细分来为特定的目标客户提供服务,有效利用渠道、推广等资源来吸引潜在客户。

传统的细分策略,通常以年龄、性别、住址、职业等为依据。然而,互联网时代让社群成为消费者沟通的主要渠道,消费者惊奇地发现,潜藏在他们内心的偏好、特质居然在各个社群中得到了呼应,因而这些偏好、特质被激发了出来。他们主动给自己贴上标签,如一个上班时间不苟言笑的CEO可能是“萌宠”的爱好者,穿Prada的“女王”却是个“猫奴”。消费者身上的标签数量剧增,这进一步促成了对消费者的细分。

毫无疑问,市场细分和消费者角色建设都依赖于各种各样的数据,包括第一方调查数据、定性焦点小组数据、购买数据、行为数据、在线跟踪数据等。随着Martech和大数据的出现,通过整合、分析各种来源不同的数据,企业能够获得的不是对消费者的简单解读,而是详尽的市场细分和消费者角色建设。

我们的CIS系统, 通过几百个数据增强源, 获得用户1700+的属性信息, 做完基本的数据清洗后, 需要做特征变换和特征选择。需要考虑特征的多重共线性和特征复杂度。先建立一组基础模型, 然后再选择基础模型进行组合, 得到更高维度的数据模型, 经过几次这样的迭代, 最终形成可用于展示呈现模型, 比如下图的『细分人群』:
图片
业务场景-自动人货匹配DM推送:
通常匹配由三个要素组成:匹配算法、人群、候选推荐项目。简单来说,一次匹配过程就是匹配算法从候选推荐项目中挑出某些项目给特定用户人群。

匹配模型就是要实现让系统作为导购(像向导一样引导购买),而不是推销员。不是无脑地推送信息和商品, 而是能够『察言观色』洞察用户的需求, 并且给他推荐最适合的商品。当然,不同商品,提升匹配成功率的手段也不同。比如, 场景式匹配,体验式匹配,陈列式匹配和价格式匹配等,综合这些要素,可以推导出导购型匹配的分析模型(如下):

图片

今天分享的内容是博鼎国际数据模型在业务场景上的流程和体现,模型训练前的数据分析、数据清洗以及特征选择非常重要,甚至他们是决定建模是否成功的关键因素,也就是数智化的底层逻辑。欢迎关注我们的公众号,了解更多行业和技术的信息。


咨询
官方微信群
官方客服

扫码添加,立即咨询

加群
官方微信群
官方微信群

扫码添加,拉你进群

更多
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯

回顶部