AMZ123跨境卖家导航
拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条文章详情

从设计到归因 AB Test实战心得

9821
2020-04-20 23:32
2020-04-20 23:32
9821

作为数据增长实战分享的第一篇,我先从个人认为最重要的 AB Test 实战开始分享,而分享过程中涉及到重要且无法展开的,未来会慢慢再与大家讨论和分享。甚至我会和大家讲到一些数据平台的使用玩法比如神策、Firebase 等。




关于 AB Test

说到 AB Test 大家都不会陌生,也是增长黑客概念流行以来非常热门的话题,我曾与业内经常做 AB Test 的朋友交流,也遇到过这类常见的问题:

1. 方案存在多变量,没有控制唯一变量,实验结果很难归因和解释

2. 多组实验同时跑,不知道实验的变量相互干扰

3. 不确定如何有效评估实验,提升多少算有效?

4. 实验结果看起来有效果,上线后却效果不明显

5. 实验结果看起来有效果,但不知道为何,无法归因出原因

我们最可怕的不是不知道要开展 AB 实验,而是明知道要开展,却不知道如何科学开展或开展后面对数据结果一脸茫然。



如何科学开展实验呢 

首先,实验的过程可以简单分为三步:

. 实验设计 - 包括实验的想法,背景,假设,方案,指标等

. 实验上线 - 包括实验 AB 功能,数据采集,测试和上线

. 实验评估 - 包括数据获取,对比分析,转化结果显著度,实验结果归因,结论,建议和计划

具体过程相信大家不会陌生,所以不会逐个介绍,下面我们重点聊聊整个过程可能常遇到的问题和经验教训,这也是我本次想分享的核心。



看似简单的实验设计,更需要重视

1、实验想法拿数据做支持

. 记住不要光拍脑袋不分析数据,这是提高实验成功率的有效途径,否则你将会承担更高的实验风险,要么实验没有效果,要么实验效果下滑,这些都是浪费资源的做法

. 公司不会有那么多时间和资源投入到一个又一个失败的实验方案中,因此想法很重要,但更重要的是参考、分析,为你的实验想法提供数据依据,拿数据说话

. 真实的情况是,我们完全可以拿数据否掉很多不靠谱的想法

. 由于本次分享的内容侧重点,这块内容以后的机会再分享

2、实验目标说清楚,写下来

. 清晰的实验目标能够让方案聚焦,也避免评估结果的相互扯皮

. 如果团队有人想要收入,有人想要留存,这往往打架的实验目标会造成后续的一系列麻烦

经历:

我们曾遇到过一个实验对于收入的效果非常显著,但却损害了用户体验,导致用户认为应用收费性质过强而流失,但团队一致认为当前收入最重要,且通过数据验证了流失的用户均是较为低质的活跃用户,对长期留存来看并无意义,只是短期留存不好,DAU 会下滑。

但团队中有人则认为前期的活跃用户更重要,不想流失用户和 DAU 下滑,这个就团队在前期没有确定一个一致的目标造成,最后的结果则是非常不欢,方案也没有上线,非常打击团队的信心。

我们不要总期待鱼和熊掌兼得,那是可遇不可求的,我们也正是一直在方案的利弊中,学会权衡并决策前行,这才是可贵的成长和经验,我们总要学会抛弃芝麻捡西瓜,把目标定下来,会更利于我们的决策。

3、实验方案设计

. 清楚了解自己的实验目标,设定测试中想要测试的变量

. 尽量避免要评估的方案存在多变量的情况,控制唯一变量,有利于得到更多实验信息

. 分组设计会是另一个重点,我们放在后面来讲

经历:

我们曾犯过这类错误,上线一个新的付费页面,但我们实验设计前期没有想清楚可以评估和实验的变量,导致我们只控制了展不展示该页面,但该付费页面我们换了新商品,更换了 SKU 组合,更换了商品的折扣属性,页面也放置在用户完成关键动作后出现。

不难想象,我们最终只得到了一个大而全的策略结果,而不知道页面里面的变化能起到的关键作用,因此我们浪费了一次机会,丢失了本可以获取的实验信息。

这个过程就好比如下,同时修改了颜色和文案那样,我们无法知道颜色和文案分别的影响。

尽量不要做出这样的对比,在实验前想清楚,再想清楚,把你要评估的变量梳理清楚,这样再把变量拆开。

如下:

实验设计方案参考如下模板

关于数据采集这块我就不做分享了,不是本次的重点,后续有机会我们再拿来分享。



AB 实验工具

笔者使用过多个 AB 工具,包括自研 AB 系统,Firebase 等第三方支持 AB  的工具,我总结了常见 AB 工具的几个特性,供大家今后需要的时候参考。

当我们创建一个 AB Test 时,需要有:

• 用户圈选:一般要求系统能够对目标实验群体做圈选,满足的用户进入 AB Test,建议支持系统已有的用户属性,行为数据,用户标签等作为可选择维度,第三方工具则要求相关数据上报,需做好前期的实验设计和数据采集工作

. 实验灰度:假如你的实验不想影响所有用户,那么这个正是你所需要的,可以实现逐步放量,相对完善的 AB 工具均有此类选项,如 Firebase

. 配置项:一般指可以由后端自定义值的【远程配置】,例如:是否展示免费试用商品,就是一个【远程配置】

. 实验分组:任意增加多个分组,并为各组选择配置项,配置项的值,以及该组的样本比例

. 实验分组标记:每个创建的实验都建议为每个实验创建一个 Track Tag,将分组名称作为值,如 Test1_Control,Test1_VarB,Test1_VarC,然后作为一个用户的标签标记上,同时要避免标签数据被覆盖导致历史实验数据丢失

如果大家是做出海的 App,Firebase 是我优先推荐的,它是谷歌的产品,而且免费,但唯一不好是对国内支持不好,所以可以根据实验群体和场景选择哦。

当然最灵活的还是自研 AB 系统,但是这个需要一个较有经验的增长产品经理或增长数据分析师来参与比较好系统的设计和数据采集,这样才能较好确保系统的可用,否则仍会出现很多坑,下面我来讲一下我们团队在实验分组遇到过的问题。



实验分组

1、按照用户 ID 等属性计算随机值

我们团队一开始通过用户 ID 来实现简单的随机分组,这个方式在我们跑多组实验的时候遇到了问题。

按用户 ID 属性计算分组值存在的潜在问题如下:

假如一个用户 U3,基于该用户 ID 通过某种随机算法计算得到 59,按照随机算法被分配到 50%~100% 这个区间,此时如果 Test1 区分 AB 两组,各 50%,那么用户 U3 应该会被分配到 Test1 的 B 组;此时如果又有 Test2 区分 AB 两组,各 50%,那么该用户仍会被分配到 Test2 的 B 组。

最后当我们要对 Test1 的 A 组和 B 组做对比时,假设 Test2 也会或多或少影响 Test1 的目标转化,那么就会多了一个 Test2 的干扰因素,从而两个实验的变量会相互干扰结果,无法评估某个 Test 变量的贡献,如下图所示:

因此这种情况下你只能同时跑一组实验。 

2、按照用户 ID 等属性和实验 ID 计算随机值

后来,我们采用另外一种分组方案,按照用户 ID 和实验 ID 共同决定随机值,这样起到在每个实验中,两组的用户也分别均匀分布在其他实验的各组值中,如下图所示原理,理论上两个实验均设置两组各 50%,则样本预计将平衡贴近 25%。

理论上,Test1 和 Test2 就相互不干扰了,因为在分组足够均衡的情况下,Test1 AB 各组受其他实验的影响也被均衡了,可以近视忽略不同变量相互之间的影响。

3、另外一种分组方案探索

我们团队还尝试过另外一种方案,这种方式就是把用户按照一个个规定的桶,将用户随机分配好,然后为实验具体组选择某个(几个)桶的用户,会比较强隔离每个实验,互不干扰,相对来说比较方便,但却需要有专人管理和把控实验资源的配置,且样本量要足够大,否则一旦筛选了条件导致样本量不够多,则会面临分组不够用的问题。

我身边也有朋友在这么做,这只是分享给大家参考,大家可以结合自己的实际情况来决定 。

如果大家选择一些 AB 工具则可以不用太担心,人家已经实现了合理的分组,按照说明设置就好了,但在自己实现分组的时候则需要特别留意这块了。



实验评估

这里我们关注一个重点,如何评估实验结果是否有效,或者说如何评估提升多少才算有效?

关于如何选取评估指标,这个需要大家结合实际业务场景来确定,这个就不介绍了(注意,我们往往不会评估单一指标)。

对于出海来说,尤其是工具类产品,最不陌生的就是免费试用了,这个苹果和谷歌为我们提供了很成熟的产品支持

我就拿这个举例子,也是我们团队亲身经历过的项目。

先做个简单假设:上线 7 天免费试用,能够对收入有提升 10%,提高用户付费转化率提高 10%。

核心评估指标:

. 用户付费转化率(7 天内,0 金额不计算)

. ARPU(7 天内)

实验分组:

A 控制组,默认不曝光

B 实验组,曝光 7 天免费试用,显示免费试用字样

参考下面数据例子, 

我们可以看到示例中:

整个实验周期中,A 组有 12100 个样本参与,B 组有 12200 个样本参与;

A 组的成功付费转化率为 1.65%,B 组的成功付费转化率为 1.97%(为了简单演示,没有给出置信区间估计) 。

如果单靠看转化率的变化,我们可以看到 B 组有些效果,但提升是否真的有显著效果呢?

这就要求我们引入统计显著的概念了,先来看示例中我们计算的结果是 95% 显著,这个就能极大给我们信心说结果是显著的。 

当转化率结果显著,这个意味着实验有胜出组了,然后看 ARPU 表现,即可大概率确认实验的效果。

这里只举一个指标评估做为例子,实际评估还需要结合实际业务来看,包括评估方案的正向反向效果。 

一个小技巧:当我们的运营团队不知道如何分析结果的归因时,采用转化前后的用户行为做差异分析,这样就能大概率做到对结果的归因分析了,关于归因仍为一个大专题,不在这里做详述。



统计是否显著概念

如果有朋友学过统计学或者接触过类似的概念,相信不会陌生,这里只做下概念普及,为了通俗易懂,有些描述可能也不是特别的科学严谨。

统计推断的概念需要有一个【原假设】,这个【原假设】我们一般假设实验的方案不如老方案效果好,然后想办法推翻,以此来坚信我们的实验是有效果。

例如这个效果指付费转化率,那么就是说,实验的 B 组的成功概率(用 PB 表示)不如实验 A 组的成功概率(用 PA 表示)高,即 PB<= PA。

有了【原假设】,接下来只需要找证据推翻上述【原假设】就可以了。

前面实验中 PB=1.97%,而 PA=1.65%,PB>PA,这个时候可以推翻原假设吗?

不能确定,因此需要引入统计显著的概念,一般显著度达到 95% 以上,就可以有足够的信心推翻原假设。

这个 95% 你可以简单理解为 PB>PA 发生的概率超过 95%,这样我们的信心就很足了。

关于显著度的计算这里不深入展开,只是提供大家一个判断依据,对效果的评估要加上这个会比较科学,这样能知道方案上线后有效果的把握程度。

注意:发生概率高,不代表一定会发生,所以要做好上线后随时准备面临结果不如意的心态。



别忘了细分实验结果

在我们多次跑实验的经验,尤其是对于出海应用,我们面临了很多的国家市场,来自全球各地人付费文化和行为模式是存在差异的,因此我们前期实验选择的群体可能就包含了不同消费特性的人群,因此无论在总体结果是否显著的情况下,我们都应该做更多维度的细分。

这样我们能有效发现那些响应不足或响应后效果差的地区,对策略做出及时的调整。



巧妙利用 AABB 分组

这个是我最后想补充的内容。

想必大家都会遇到一些波动特别大的指标,类似一些收入指标,那实验出现随机的结果是很可能发生的,这个时候 AABB 分组策略能给我们提供一些信息。

假如我们实验只是简单的分为两组,实际上我们还能够将 A 组划分成 A1、A2,将 B 组划分成 B1、B2 组。

通过对比组间,如 A 组和 B 组的结果来衡量实验效果。

还能通过对比 A1 和 A2,或对比 B1 和 B2 来确认组内的数据是否稳定,如果组内数据差异过大,而组间差异也表现差异很明显的时候,这个时候就要小心我们前面提到的随机发生的结果。

因此 AABB 分组还够给我们提供更多的实验信息,大家可以去尝试一下。

免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签
SHEIN发布全球循环报告,7 成用户注重性价比
AMZ123获悉,近日,SHEIN 发布2025 年全球循环性报告,调研覆盖21 个国家、约1.5万名用户,系统分析用户购买决策、穿着习惯、衣物处置与循环参与行为,为服装电商的可持续运营、循环服务设计与消费引导提供数据支撑。核心发现如下:一、影响用户购买决策的因素(一)核心决策因素1、性价比是第一决策前提价格是全球用户最统一、最优先的考量项。71.6% 的用户总是将最优价格作为首要考虑,19.2%经常考虑,合计占比高达 90.8%。在 21 个调研市场中,18 个市场将价格列为第一考量,且这些市场中超过 85% 的用户高度关注价格;其中南非、韩国用户价格敏感度最高,近 95% 总是 / 经常关注价格。
26年美国美妆消费者趋势:关税、AI、社媒影响购物决策
AMZ123获悉,随着新技术与平台不断涌现,不同世代美妆消费者的购物行为愈发复杂,不同产品类别对购买决策的影响也存在显著差异。同时,美国近年的关税政策与持续通胀也对市场格局造成影响,使品牌方面临竞争激烈且充满不确定性的环境。因此,Tinuiti发布了《2026年美妆营销研究报告》,从通胀影响到社交媒体趋势全面分析了消费者行为,以更好理解当前美国市场的美妆消费状况。一、市场现状1. 消费者对价格变化的反应数据显示,2025年美国美妆及个护电商市场规模已达到约610亿美元,电商渠道已占据接近一半的市场份额。随着技术进步和平台多样化,美容消费者的购物路径日益复杂。
25年日本家居电商市场达2.56万亿日元,平均单价提升
AMZ123获悉,近日,根据日本经济产业省发布的“2022-2025年电商市场调查”,2025年日本家居电商市场持续扩张,尽管新建住宅数量下降,消费者对线上购物的需求和高价值产品的偏好推动了市场增长。数据显示,近三年来,日本生活杂货、家具、家居类B2C电商市场规模和渗透率均呈稳步上升趋势,从2022年的2.35万亿日元(29.59%),增长至2025年的2.56万亿日元(32.58%%),同比增长3.62%。在商品行业中排名第三,仅次于“图书、视频及音乐软件”(56.45%)和“家用电器、音视频设备、电脑及周边设备等”(43.03%)。
25年全球美妆市场增长10%,AI与社交电商推动增长
AMZ123获悉,近日,根据尼尔森IQ(NielsenIQ)发布的《2026美妆市场报告》,2025年全球美妆市场同比增长10%,其中电商渠道的增速是线下实体店的六倍。对于品牌来说,加快数字化布局已成为赢得美妆市场的关键。从区域表现来看,北美市场增长10%,西欧增长4%,东欧增长8%,拉丁美洲增长14%,非洲和中东增长16%,亚太地区增长14%。这一趋势表明,无论市场成熟度如何,数字化渠道对全球美妆增长的推动作用普遍存在。AI驱动的产品推荐、社交电商以及直播购物正在改变消费者发现和购买产品的路径。超过50%的消费者正在使用AI购物工具,其中49%已经通过生成式AI获得美妆推荐,53%的消费者通过社交平台完成购买。
国产奶瓶刷打入美国母婴圈,在TikTok卖了200多万
给宝宝洗杯子,大概是所有父母最熟悉也最无奈的日常。不同于成人所用的敞口杯,婴幼儿专用杯包含防呛阀门、吸嘴等特殊饮水结构,复杂配件造就的诸多清洁死角,“滋生”的不光有缝隙处的霉菌刺客,更有为人父母对于“哪儿哪儿不干净”的卫生焦虑。近期在TikTok美区,一款能深入各个死角、分区清洁的杯刷工具正是为“绞杀”这番情绪而来,凭借5合1的全能型卖点迅速突围,成为母婴类目的一匹销量黑马。01母婴类目下的“死角克星”数据显示,在TikTok美区母婴用品类目,一款主打5合1的清洁杯刷以2445件的周销量,登上了大类销量榜第2的位置。虽然乍一看这款刷子与常规款无异,但在洗杯子这件事上,它的专业程度却毋庸置疑。
美国Q4电商销售额达3652亿美元,渗透率创新高
AMZ123获悉,近日,根据Digital Commerce 360对美国商务部数据的分析,2025年第四季度,美国电商销售额首次在单个季度突破3500亿美元大关,达到约3650亿美元,比历史数据高出约150亿美元。数据显示,2025年第四季度美国总零售额为1.461万亿美元,同比增长3.6%。其中,线下零售销售增长3%。分析显示,电商在美国零售市场的渗透率创历史新高,占美国总零售总额的25%。若将餐饮服务等零售销售也计入,美国电商占总零售额的比例为16.6%,未经调整的数据显示占比为18.3%。这是自美国商务部 1999年开始追踪在线销售以来,单季度电商渗透率最高的一次。
意大利对Revolut处以1150万欧元罚款
Fin123获悉,近日,意大利反垄断机构对 Revolut 处以 1150 万欧元的罚款。意大利竞争管理局(AGCM)指出,Revolut向客户散布了关于其投资产品的错误信息,同时未能清晰、完整地披露免佣金投资背后的隐性成本与交易限制。此外,意大利方面指出,Revolut在处理用户银行账户时,采用了激进且不透明的操作手法,包括就账户暂停、限制及冻结等事项提供不完整或误导性信息。此次罚款共涉及三项具体处罚:第一,Revolut Securities Europe UAB 与 Revolut Group Holdings Ltd 因投资服务信息披露不足,被罚500万欧元。
年销售额6.7亿美元!25年TikTok Shop美国站美妆标签Top10
AMZ123获悉,近日,根据Charm.io统计,TikTok Shop美国站上10个美妆类标签在过去12个月内创造了超过6.7亿美元的销售额,这些标签不仅描述产品,更直接激发购买行为。2025年超过7000万件美妆产品通过TikTok Shop售出。在TikTok Shop上,标签成为推动消费的基础形式。例如,#skincare护肤标签一年销售额约1.419亿美元,Dr. Melaxin Peel Shot Glow Rice安瓶套装因配方中的水稻提取物与AHA、BHA化学成分,能清理黑头、净化毛孔并防止痘痘,成为#skincare的代表产品。
Stripe与Meta合作,FB广告可完成一键结账
Fin123获悉,近日,Stripe宣布,为Facebook广告商推出全新结账体验,使消费者无需离开应用即可完成购买。通过这项功能,使用Stripe的卖家可以将Facebook广告与支付系统直接连接,买家点击广告中的“立即购买”按钮后,可使用Meta钱包中保存的支付凭证完成一键结账。该流程基于《智能体商务协议》,未来将扩展到包括Instagram广告在内的更多Meta平台。卖家可在Stripe管理平台中通过开关选择启用此功能,并关联其Meta广告账户。启用后,购买过程将完全嵌入广告体验,消除了用户在传统跳转浏览器或应用完成交易时的中断,从而提升购买转化率。
亚马逊再调FBA费用,4月17日起生效!
中东战火延宕至今,仍未有“熄火”之意。当地时间4月2日,特朗普在最新表态中发出警告,称美国将在未来两到三周内对伊朗进行猛烈打击,国际油价应声飙涨。截至当天收盘,5月交货的美国WTI原油价格收于每桶111.54美元,上涨11.41%;6月交货的国际基准布伦特原油价格则收于每桶109.03美元,涨幅高达7.78%。在此背景下,一系列“涨价通知”如同多米诺骨牌,正逐级传导至跨境卖家们的利润表上。全链路合规难题现场答疑,4.17 深圳 | 深圳商务局&amp;行业专家坐镇,落地实操一站获取!点击报名AMZ123了解到,当地时间4月2日,亚马逊美国站发布了一则加征物流相关附加费的通知。
高评分+高销量,10款亚马逊厨房小家电热销产品一览
AMZ123获悉,近日,亚马逊各类产品搜索量增长显著,以下10款产品在亚马逊上销量表现突出,深受消费者欢迎。1. 电热水壶预计销售额:62万美元/月销量:24,200+星级评分:4.5好评数量:47,056+图源:亚马逊产品介绍:这款电热水壶内部无塑料,提升饮用安全性与口感纯净度。产品加热效率较高,可在3分钟内快速烧开一杯水,同时配备自动断电、加热指示灯、防干烧保护功能,保障使用安全。整体外观采用简约设计,宽口壶身与双角度开盖设计便于清洁与加水,精准壶嘴与防烫手柄提升倒水稳定性。
因产品数据质量不佳,印度电商每年损失五百亿卢比
AMZ123获悉,近日,据外媒报道,印度电商与快消行业正因产品数据质量不佳而蒙受巨额损失。据GS1印度公司的最新研究,不一致、不完整或不准确的产品信息每年导致约500亿卢比的资金流失。其中,约200亿卢比表现为毛利率下降,原因包括转化率降低、商品上架受限以及销售速度放缓;另有190亿卢比直接用于退货相关成本,涵盖逆向物流、处理与加工等环节。尤其在时尚服装领域,退货问题更为突出。因尺码不合、款式偏好或实物与描述不符,顾客主动退货率通常占总订单的20%至25%。Unicommerce指出,逆向物流会使订单价值额外增加5%至7%,而这还不含原始运费。放眼全球,时尚与鞋类退货率甚至可达30%至40%。
存火灾风险!美国CPSC紧急召回八款插头延长线
AMZ123获悉,近日,美国消费者产品安全委员会(CPSC)发布紧急召回警告,要求消费者立即停止使用“插头延长线”,并已与沃尔玛、eBay和AliExpress等电商平台达成协议,下架相关危险商品。CPSC指出,这类延长线两端均为公头插头,插入电源后裸露插脚可能带电,存在严重触电和火灾风险,因此在任何情况下都不应使用。为防止危险商品继续流入市场,CPSC已推动相关电商平台删除商品链接,同时平台方面承诺将主动识别并下架类似产品。根据CPSC的公告,多家来自中国的卖家和企业涉及销售该类产品,但大多数未回应CPSC关于召回或产品信息的要求。
26年美国美妆消费者趋势:关税、AI、社媒影响购物决策
AMZ123获悉,随着新技术与平台不断涌现,不同世代美妆消费者的购物行为愈发复杂,不同产品类别对购买决策的影响也存在显著差异。同时,美国近年的关税政策与持续通胀也对市场格局造成影响,使品牌方面临竞争激烈且充满不确定性的环境。因此,Tinuiti发布了《2026年美妆营销研究报告》,从通胀影响到社交媒体趋势全面分析了消费者行为,以更好理解当前美国市场的美妆消费状况。一、市场现状1. 消费者对价格变化的反应数据显示,2025年美国美妆及个护电商市场规模已达到约610亿美元,电商渠道已占据接近一半的市场份额。随着技术进步和平台多样化,美容消费者的购物路径日益复杂。
SHEIN发布全球循环报告,7 成用户注重性价比
AMZ123获悉,近日,SHEIN 发布2025 年全球循环性报告,调研覆盖21 个国家、约1.5万名用户,系统分析用户购买决策、穿着习惯、衣物处置与循环参与行为,为服装电商的可持续运营、循环服务设计与消费引导提供数据支撑。核心发现如下:一、影响用户购买决策的因素(一)核心决策因素1、性价比是第一决策前提价格是全球用户最统一、最优先的考量项。71.6% 的用户总是将最优价格作为首要考虑,19.2%经常考虑,合计占比高达 90.8%。在 21 个调研市场中,18 个市场将价格列为第一考量,且这些市场中超过 85% 的用户高度关注价格;其中南非、韩国用户价格敏感度最高,近 95% 总是 / 经常关注价格。
25年全球美妆市场增长10%,AI与社交电商推动增长
AMZ123获悉,近日,根据尼尔森IQ(NielsenIQ)发布的《2026美妆市场报告》,2025年全球美妆市场同比增长10%,其中电商渠道的增速是线下实体店的六倍。对于品牌来说,加快数字化布局已成为赢得美妆市场的关键。从区域表现来看,北美市场增长10%,西欧增长4%,东欧增长8%,拉丁美洲增长14%,非洲和中东增长16%,亚太地区增长14%。这一趋势表明,无论市场成熟度如何,数字化渠道对全球美妆增长的推动作用普遍存在。AI驱动的产品推荐、社交电商以及直播购物正在改变消费者发现和购买产品的路径。超过50%的消费者正在使用AI购物工具,其中49%已经通过生成式AI获得美妆推荐,53%的消费者通过社交平台完成购买。
《TikTok Shop突破末次触达归因(LTA)ROAS分析报告》PDF下载
在数字化浪潮中,广告主正面临有效衡量广告支出回报率(ROAS)的挑战。传统未次触达归因(LTA)模型因数据收集难度和归因偏差问题已难以满足广告主的需求,因此,探索新的方法来解决这些问题显得尤为重要。
《未来电商报告:品牌独立站五步升级锁定未来确定性增长》PDF下载
调研显示,出海商家针对家居、时尚及消费电子等品类布局比例均超过30%。独立站凭借其高度品牌化、个性化、场景化及功能性等优势,精准契合上述品类对品牌调性、场景交互及沉浸式体验的核心诉求,正成为商家黑五大促期提升销量、构建品牌竞争壁垒的关键载体。
《TikTok Shop达人真实种草力报告》PDF下载
达人正在将文化内容、社群互动与商业转化深度融合,形成一个高度协同的内容商业生态,其价值早已不再局限于内容带来的直接收入。从更广义的商业视角来看,达人价值的核心在于真实影响力-即其内容对商品与服务产生影响并促成转化所形成的整体商业价值,这一能力正构成达人在内容电商体系中的带货价值基础。
《2026年第2季度儿童时尚品类报告》PDF下载
儿童时尚品类概览 主题选品合辑 巴西站点上新 泰国站点上新 菲律宾站点上新 越南站点上新
《TikTok Shop 2025年度报告》PDF下载
2025年,TikTok Shop进一步加快扩张步伐,在巩固欧美成熟市场的同时,积极开拓新兴市场,先后上线德国、意大利、法国、日本等站点。此举不仅为平台带来新增量,也体现出其多元化市场战略的初步成效,以分散地缘政治风险。
《Shopee2025印尼站点X 汽车摩托品类专题》PDF下载
印尼当地汽车保有量并不高,每一千人的机动车保有量仅96人,未来可提升的空间仍大。空间参照系可以看泰国和马来,2024年泰国汽车保有量为322辆/千人,马来西亚为531辆/千人。
《2026年Shopee运动户外类目自行车爆品分享》PDF下载
巴西骑行爱好群体广泛,但平台上热销品呈现出的国际大牌极少,推测可能原因是国际品牌可能主要通过线下经销或自行渠道销售,未深度参与Shopee等本土电商。因此巴西用户在平台上几乎接触不到这些高端品牌产品。平台上巴西用户更倾向购买本土品牌的自行车,可能出于价格实惠和售后便利考虑。
《2025年TikTok生态发展白皮书》PDF下载
2025年,全球内容电商迈入深度跃迁的新周期。TikTokShop正以前所未有的速度拓展市场版图,完成从高速增长向高质量增长的跃迁。在这一进程中,生态结构重构、参与者多元化、全球政策协同等因素叠加,构成内容电商演进的核心变量。
北美电商资讯
AMZ123旗下北美跨境电商新闻栏目,专注北美跨境电商热点资讯,为广大卖家提供北美跨境电商最新动态、最热新闻。
AMZ123选品观察员
选品推荐及选品技巧分享。
跨境数据中心
聚合海量跨境数据,输出跨境研究智慧。
亚马逊全球开店
亚马逊全球开店官方公众号,致力于为中国跨境卖家提供最新,最全亚马逊全球开店资讯,运营干货分享及开店支持。
欧洲电商资讯
AMZ123旗下欧洲跨境电商新闻栏目,专注欧洲跨境电商热点资讯,为广大卖家提供欧洲跨境电商最新动态、最热新闻。
AMZ123会员
「AMZ123会员」为出海者推出的一站式私享服务
AMZ123卖家导航
这个人很懒,还没有自我介绍
侃侃跨境那些事儿
不侃废话,挣钱要紧!
首页
跨境头条
文章详情
从设计到归因 AB Test实战心得
白鲸出海
2020-04-20 23:32
9821

作为数据增长实战分享的第一篇,我先从个人认为最重要的 AB Test 实战开始分享,而分享过程中涉及到重要且无法展开的,未来会慢慢再与大家讨论和分享。甚至我会和大家讲到一些数据平台的使用玩法比如神策、Firebase 等。




关于 AB Test

说到 AB Test 大家都不会陌生,也是增长黑客概念流行以来非常热门的话题,我曾与业内经常做 AB Test 的朋友交流,也遇到过这类常见的问题:

1. 方案存在多变量,没有控制唯一变量,实验结果很难归因和解释

2. 多组实验同时跑,不知道实验的变量相互干扰

3. 不确定如何有效评估实验,提升多少算有效?

4. 实验结果看起来有效果,上线后却效果不明显

5. 实验结果看起来有效果,但不知道为何,无法归因出原因

我们最可怕的不是不知道要开展 AB 实验,而是明知道要开展,却不知道如何科学开展或开展后面对数据结果一脸茫然。



如何科学开展实验呢 

首先,实验的过程可以简单分为三步:

. 实验设计 - 包括实验的想法,背景,假设,方案,指标等

. 实验上线 - 包括实验 AB 功能,数据采集,测试和上线

. 实验评估 - 包括数据获取,对比分析,转化结果显著度,实验结果归因,结论,建议和计划

具体过程相信大家不会陌生,所以不会逐个介绍,下面我们重点聊聊整个过程可能常遇到的问题和经验教训,这也是我本次想分享的核心。



看似简单的实验设计,更需要重视

1、实验想法拿数据做支持

. 记住不要光拍脑袋不分析数据,这是提高实验成功率的有效途径,否则你将会承担更高的实验风险,要么实验没有效果,要么实验效果下滑,这些都是浪费资源的做法

. 公司不会有那么多时间和资源投入到一个又一个失败的实验方案中,因此想法很重要,但更重要的是参考、分析,为你的实验想法提供数据依据,拿数据说话

. 真实的情况是,我们完全可以拿数据否掉很多不靠谱的想法

. 由于本次分享的内容侧重点,这块内容以后的机会再分享

2、实验目标说清楚,写下来

. 清晰的实验目标能够让方案聚焦,也避免评估结果的相互扯皮

. 如果团队有人想要收入,有人想要留存,这往往打架的实验目标会造成后续的一系列麻烦

经历:

我们曾遇到过一个实验对于收入的效果非常显著,但却损害了用户体验,导致用户认为应用收费性质过强而流失,但团队一致认为当前收入最重要,且通过数据验证了流失的用户均是较为低质的活跃用户,对长期留存来看并无意义,只是短期留存不好,DAU 会下滑。

但团队中有人则认为前期的活跃用户更重要,不想流失用户和 DAU 下滑,这个就团队在前期没有确定一个一致的目标造成,最后的结果则是非常不欢,方案也没有上线,非常打击团队的信心。

我们不要总期待鱼和熊掌兼得,那是可遇不可求的,我们也正是一直在方案的利弊中,学会权衡并决策前行,这才是可贵的成长和经验,我们总要学会抛弃芝麻捡西瓜,把目标定下来,会更利于我们的决策。

3、实验方案设计

. 清楚了解自己的实验目标,设定测试中想要测试的变量

. 尽量避免要评估的方案存在多变量的情况,控制唯一变量,有利于得到更多实验信息

. 分组设计会是另一个重点,我们放在后面来讲

经历:

我们曾犯过这类错误,上线一个新的付费页面,但我们实验设计前期没有想清楚可以评估和实验的变量,导致我们只控制了展不展示该页面,但该付费页面我们换了新商品,更换了 SKU 组合,更换了商品的折扣属性,页面也放置在用户完成关键动作后出现。

不难想象,我们最终只得到了一个大而全的策略结果,而不知道页面里面的变化能起到的关键作用,因此我们浪费了一次机会,丢失了本可以获取的实验信息。

这个过程就好比如下,同时修改了颜色和文案那样,我们无法知道颜色和文案分别的影响。

尽量不要做出这样的对比,在实验前想清楚,再想清楚,把你要评估的变量梳理清楚,这样再把变量拆开。

如下:

实验设计方案参考如下模板

关于数据采集这块我就不做分享了,不是本次的重点,后续有机会我们再拿来分享。



AB 实验工具

笔者使用过多个 AB 工具,包括自研 AB 系统,Firebase 等第三方支持 AB  的工具,我总结了常见 AB 工具的几个特性,供大家今后需要的时候参考。

当我们创建一个 AB Test 时,需要有:

• 用户圈选:一般要求系统能够对目标实验群体做圈选,满足的用户进入 AB Test,建议支持系统已有的用户属性,行为数据,用户标签等作为可选择维度,第三方工具则要求相关数据上报,需做好前期的实验设计和数据采集工作

. 实验灰度:假如你的实验不想影响所有用户,那么这个正是你所需要的,可以实现逐步放量,相对完善的 AB 工具均有此类选项,如 Firebase

. 配置项:一般指可以由后端自定义值的【远程配置】,例如:是否展示免费试用商品,就是一个【远程配置】

. 实验分组:任意增加多个分组,并为各组选择配置项,配置项的值,以及该组的样本比例

. 实验分组标记:每个创建的实验都建议为每个实验创建一个 Track Tag,将分组名称作为值,如 Test1_Control,Test1_VarB,Test1_VarC,然后作为一个用户的标签标记上,同时要避免标签数据被覆盖导致历史实验数据丢失

如果大家是做出海的 App,Firebase 是我优先推荐的,它是谷歌的产品,而且免费,但唯一不好是对国内支持不好,所以可以根据实验群体和场景选择哦。

当然最灵活的还是自研 AB 系统,但是这个需要一个较有经验的增长产品经理或增长数据分析师来参与比较好系统的设计和数据采集,这样才能较好确保系统的可用,否则仍会出现很多坑,下面我来讲一下我们团队在实验分组遇到过的问题。



实验分组

1、按照用户 ID 等属性计算随机值

我们团队一开始通过用户 ID 来实现简单的随机分组,这个方式在我们跑多组实验的时候遇到了问题。

按用户 ID 属性计算分组值存在的潜在问题如下:

假如一个用户 U3,基于该用户 ID 通过某种随机算法计算得到 59,按照随机算法被分配到 50%~100% 这个区间,此时如果 Test1 区分 AB 两组,各 50%,那么用户 U3 应该会被分配到 Test1 的 B 组;此时如果又有 Test2 区分 AB 两组,各 50%,那么该用户仍会被分配到 Test2 的 B 组。

最后当我们要对 Test1 的 A 组和 B 组做对比时,假设 Test2 也会或多或少影响 Test1 的目标转化,那么就会多了一个 Test2 的干扰因素,从而两个实验的变量会相互干扰结果,无法评估某个 Test 变量的贡献,如下图所示:

因此这种情况下你只能同时跑一组实验。 

2、按照用户 ID 等属性和实验 ID 计算随机值

后来,我们采用另外一种分组方案,按照用户 ID 和实验 ID 共同决定随机值,这样起到在每个实验中,两组的用户也分别均匀分布在其他实验的各组值中,如下图所示原理,理论上两个实验均设置两组各 50%,则样本预计将平衡贴近 25%。

理论上,Test1 和 Test2 就相互不干扰了,因为在分组足够均衡的情况下,Test1 AB 各组受其他实验的影响也被均衡了,可以近视忽略不同变量相互之间的影响。

3、另外一种分组方案探索

我们团队还尝试过另外一种方案,这种方式就是把用户按照一个个规定的桶,将用户随机分配好,然后为实验具体组选择某个(几个)桶的用户,会比较强隔离每个实验,互不干扰,相对来说比较方便,但却需要有专人管理和把控实验资源的配置,且样本量要足够大,否则一旦筛选了条件导致样本量不够多,则会面临分组不够用的问题。

我身边也有朋友在这么做,这只是分享给大家参考,大家可以结合自己的实际情况来决定 。

如果大家选择一些 AB 工具则可以不用太担心,人家已经实现了合理的分组,按照说明设置就好了,但在自己实现分组的时候则需要特别留意这块了。



实验评估

这里我们关注一个重点,如何评估实验结果是否有效,或者说如何评估提升多少才算有效?

关于如何选取评估指标,这个需要大家结合实际业务场景来确定,这个就不介绍了(注意,我们往往不会评估单一指标)。

对于出海来说,尤其是工具类产品,最不陌生的就是免费试用了,这个苹果和谷歌为我们提供了很成熟的产品支持

我就拿这个举例子,也是我们团队亲身经历过的项目。

先做个简单假设:上线 7 天免费试用,能够对收入有提升 10%,提高用户付费转化率提高 10%。

核心评估指标:

. 用户付费转化率(7 天内,0 金额不计算)

. ARPU(7 天内)

实验分组:

A 控制组,默认不曝光

B 实验组,曝光 7 天免费试用,显示免费试用字样

参考下面数据例子, 

我们可以看到示例中:

整个实验周期中,A 组有 12100 个样本参与,B 组有 12200 个样本参与;

A 组的成功付费转化率为 1.65%,B 组的成功付费转化率为 1.97%(为了简单演示,没有给出置信区间估计) 。

如果单靠看转化率的变化,我们可以看到 B 组有些效果,但提升是否真的有显著效果呢?

这就要求我们引入统计显著的概念了,先来看示例中我们计算的结果是 95% 显著,这个就能极大给我们信心说结果是显著的。 

当转化率结果显著,这个意味着实验有胜出组了,然后看 ARPU 表现,即可大概率确认实验的效果。

这里只举一个指标评估做为例子,实际评估还需要结合实际业务来看,包括评估方案的正向反向效果。 

一个小技巧:当我们的运营团队不知道如何分析结果的归因时,采用转化前后的用户行为做差异分析,这样就能大概率做到对结果的归因分析了,关于归因仍为一个大专题,不在这里做详述。



统计是否显著概念

如果有朋友学过统计学或者接触过类似的概念,相信不会陌生,这里只做下概念普及,为了通俗易懂,有些描述可能也不是特别的科学严谨。

统计推断的概念需要有一个【原假设】,这个【原假设】我们一般假设实验的方案不如老方案效果好,然后想办法推翻,以此来坚信我们的实验是有效果。

例如这个效果指付费转化率,那么就是说,实验的 B 组的成功概率(用 PB 表示)不如实验 A 组的成功概率(用 PA 表示)高,即 PB<= PA。

有了【原假设】,接下来只需要找证据推翻上述【原假设】就可以了。

前面实验中 PB=1.97%,而 PA=1.65%,PB>PA,这个时候可以推翻原假设吗?

不能确定,因此需要引入统计显著的概念,一般显著度达到 95% 以上,就可以有足够的信心推翻原假设。

这个 95% 你可以简单理解为 PB>PA 发生的概率超过 95%,这样我们的信心就很足了。

关于显著度的计算这里不深入展开,只是提供大家一个判断依据,对效果的评估要加上这个会比较科学,这样能知道方案上线后有效果的把握程度。

注意:发生概率高,不代表一定会发生,所以要做好上线后随时准备面临结果不如意的心态。



别忘了细分实验结果

在我们多次跑实验的经验,尤其是对于出海应用,我们面临了很多的国家市场,来自全球各地人付费文化和行为模式是存在差异的,因此我们前期实验选择的群体可能就包含了不同消费特性的人群,因此无论在总体结果是否显著的情况下,我们都应该做更多维度的细分。

这样我们能有效发现那些响应不足或响应后效果差的地区,对策略做出及时的调整。



巧妙利用 AABB 分组

这个是我最后想补充的内容。

想必大家都会遇到一些波动特别大的指标,类似一些收入指标,那实验出现随机的结果是很可能发生的,这个时候 AABB 分组策略能给我们提供一些信息。

假如我们实验只是简单的分为两组,实际上我们还能够将 A 组划分成 A1、A2,将 B 组划分成 B1、B2 组。

通过对比组间,如 A 组和 B 组的结果来衡量实验效果。

还能通过对比 A1 和 A2,或对比 B1 和 B2 来确认组内的数据是否稳定,如果组内数据差异过大,而组间差异也表现差异很明显的时候,这个时候就要小心我们前面提到的随机发生的结果。

因此 AABB 分组还够给我们提供更多的实验信息,大家可以去尝试一下。

咨询
官方微信群
官方客服

扫码添加,立即咨询

加群
官方微信群
官方微信群

扫码添加,拉你进群

更多
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯

回顶部