从设计到归因 AB Test实战心得

白鲸出海

9470

2020-04-20 23:32

9470

白鲸出海

作为数据增长实战分享的第一篇，我先从个人认为最重要的 AB Test 实战开始分享，而分享过程中涉及到重要且无法展开的，未来会慢慢再与大家讨论和分享。甚至我会和大家讲到一些数据平台的使用玩法比如神策、Firebase 等。

关于 AB Test

说到 AB Test 大家都不会陌生，也是增长黑客概念流行以来非常热门的话题，我曾与业内经常做 AB Test 的朋友交流，也遇到过这类常见的问题：

1. 方案存在多变量，没有控制唯一变量，实验结果很难归因和解释

2. 多组实验同时跑，不知道实验的变量相互干扰

3. 不确定如何有效评估实验，提升多少算有效？

4. 实验结果看起来有效果，上线后却效果不明显

5. 实验结果看起来有效果，但不知道为何，无法归因出原因

我们最可怕的不是不知道要开展 AB 实验，而是明知道要开展，却不知道如何科学开展或开展后面对数据结果一脸茫然。

如何科学开展实验呢

首先，实验的过程可以简单分为三步：

. 实验设计 - 包括实验的想法，背景，假设，方案，指标等

. 实验上线 - 包括实验 AB 功能，数据采集，测试和上线

. 实验评估 - 包括数据获取，对比分析，转化结果显著度，实验结果归因，结论，建议和计划

具体过程相信大家不会陌生，所以不会逐个介绍，下面我们重点聊聊整个过程可能常遇到的问题和经验教训，这也是我本次想分享的核心。

看似简单的实验设计，更需要重视

1、实验想法拿数据做支持

. 记住不要光拍脑袋不分析数据，这是提高实验成功率的有效途径，否则你将会承担更高的实验风险，要么实验没有效果，要么实验效果下滑，这些都是浪费资源的做法

. 公司不会有那么多时间和资源投入到一个又一个失败的实验方案中，因此想法很重要，但更重要的是参考、分析，为你的实验想法提供数据依据，拿数据说话

. 真实的情况是，我们完全可以拿数据否掉很多不靠谱的想法

. 由于本次分享的内容侧重点，这块内容以后的机会再分享

2、实验目标说清楚，写下来

. 清晰的实验目标能够让方案聚焦，也避免评估结果的相互扯皮

. 如果团队有人想要收入，有人想要留存，这往往打架的实验目标会造成后续的一系列麻烦

经历：

我们曾遇到过一个实验对于收入的效果非常显著，但却损害了用户体验，导致用户认为应用收费性质过强而流失，但团队一致认为当前收入最重要，且通过数据验证了流失的用户均是较为低质的活跃用户，对长期留存来看并无意义，只是短期留存不好，DAU 会下滑。

但团队中有人则认为前期的活跃用户更重要，不想流失用户和 DAU 下滑，这个就团队在前期没有确定一个一致的目标造成，最后的结果则是非常不欢，方案也没有上线，非常打击团队的信心。

我们不要总期待鱼和熊掌兼得，那是可遇不可求的，我们也正是一直在方案的利弊中，学会权衡并决策前行，这才是可贵的成长和经验，我们总要学会抛弃芝麻捡西瓜，把目标定下来，会更利于我们的决策。

3、实验方案设计

. 清楚了解自己的实验目标，设定测试中想要测试的变量

. 尽量避免要评估的方案存在多变量的情况，控制唯一变量，有利于得到更多实验信息

. 分组设计会是另一个重点，我们放在后面来讲

经历：

我们曾犯过这类错误，上线一个新的付费页面，但我们实验设计前期没有想清楚可以评估和实验的变量，导致我们只控制了展不展示该页面，但该付费页面我们换了新商品，更换了 SKU 组合，更换了商品的折扣属性，页面也放置在用户完成关键动作后出现。

不难想象，我们最终只得到了一个大而全的策略结果，而不知道页面里面的变化能起到的关键作用，因此我们浪费了一次机会，丢失了本可以获取的实验信息。

这个过程就好比如下，同时修改了颜色和文案那样，我们无法知道颜色和文案分别的影响。

尽量不要做出这样的对比，在实验前想清楚，再想清楚，把你要评估的变量梳理清楚，这样再把变量拆开。

如下：

实验设计方案参考如下模板

关于数据采集这块我就不做分享了，不是本次的重点，后续有机会我们再拿来分享。

AB 实验工具

笔者使用过多个 AB 工具，包括自研 AB 系统，Firebase 等第三方支持 AB 的工具，我总结了常见 AB 工具的几个特性，供大家今后需要的时候参考。

当我们创建一个 AB Test 时，需要有：

• 用户圈选：一般要求系统能够对目标实验群体做圈选，满足的用户进入 AB Test，建议支持系统已有的用户属性，行为数据，用户标签等作为可选择维度，第三方工具则要求相关数据上报，需做好前期的实验设计和数据采集工作

. 实验灰度：假如你的实验不想影响所有用户，那么这个正是你所需要的，可以实现逐步放量，相对完善的 AB 工具均有此类选项，如 Firebase

. 配置项：一般指可以由后端自定义值的【远程配置】，例如：是否展示免费试用商品，就是一个【远程配置】

. 实验分组：任意增加多个分组，并为各组选择配置项，配置项的值，以及该组的样本比例

. 实验分组标记：每个创建的实验都建议为每个实验创建一个 Track Tag，将分组名称作为值，如 Test1_Control，Test1_VarB，Test1_VarC，然后作为一个用户的标签标记上，同时要避免标签数据被覆盖导致历史实验数据丢失

如果大家是做出海的 App，Firebase 是我优先推荐的，它是谷歌的产品，而且免费，但唯一不好是对国内支持不好，所以可以根据实验群体和场景选择哦。

当然最灵活的还是自研 AB 系统，但是这个需要一个较有经验的增长产品经理或增长数据分析师来参与比较好系统的设计和数据采集，这样才能较好确保系统的可用，否则仍会出现很多坑，下面我来讲一下我们团队在实验分组遇到过的问题。

实验分组

1、按照用户 ID 等属性计算随机值

我们团队一开始通过用户 ID 来实现简单的随机分组，这个方式在我们跑多组实验的时候遇到了问题。

按用户 ID 属性计算分组值存在的潜在问题如下：

假如一个用户 U3，基于该用户 ID 通过某种随机算法计算得到 59，按照随机算法被分配到 50%~100% 这个区间，此时如果 Test1 区分 AB 两组，各 50%，那么用户 U3 应该会被分配到 Test1 的 B 组；此时如果又有 Test2 区分 AB 两组，各 50%，那么该用户仍会被分配到 Test2 的 B 组。

最后当我们要对 Test1 的 A 组和 B 组做对比时，假设 Test2 也会或多或少影响 Test1 的目标转化，那么就会多了一个 Test2 的干扰因素，从而两个实验的变量会相互干扰结果，无法评估某个 Test 变量的贡献，如下图所示：

因此这种情况下你只能同时跑一组实验。

2、按照用户 ID 等属性和实验 ID 计算随机值

后来，我们采用另外一种分组方案，按照用户 ID 和实验 ID 共同决定随机值，这样起到在每个实验中，两组的用户也分别均匀分布在其他实验的各组值中，如下图所示原理，理论上两个实验均设置两组各 50%，则样本预计将平衡贴近 25%。

理论上，Test1 和 Test2 就相互不干扰了，因为在分组足够均衡的情况下，Test1 AB 各组受其他实验的影响也被均衡了，可以近视忽略不同变量相互之间的影响。

3、另外一种分组方案探索

我们团队还尝试过另外一种方案，这种方式就是把用户按照一个个规定的桶，将用户随机分配好，然后为实验具体组选择某个（几个）桶的用户，会比较强隔离每个实验，互不干扰，相对来说比较方便，但却需要有专人管理和把控实验资源的配置，且样本量要足够大，否则一旦筛选了条件导致样本量不够多，则会面临分组不够用的问题。

我身边也有朋友在这么做，这只是分享给大家参考，大家可以结合自己的实际情况来决定。

如果大家选择一些 AB 工具则可以不用太担心，人家已经实现了合理的分组，按照说明设置就好了，但在自己实现分组的时候则需要特别留意这块了。

实验评估

这里我们关注一个重点，如何评估实验结果是否有效，或者说如何评估提升多少才算有效？

关于如何选取评估指标，这个需要大家结合实际业务场景来确定，这个就不介绍了（注意，我们往往不会评估单一指标）。

对于出海来说，尤其是工具类产品，最不陌生的就是免费试用了，这个苹果和谷歌为我们提供了很成熟的产品支持

我就拿这个举例子，也是我们团队亲身经历过的项目。

先做个简单假设：上线 7 天免费试用，能够对收入有提升 10%，提高用户付费转化率提高 10%。

核心评估指标：

. 用户付费转化率（7 天内，0 金额不计算）

. ARPU（7 天内）

实验分组：

A 控制组，默认不曝光

B 实验组，曝光 7 天免费试用，显示免费试用字样

参考下面数据例子，

我们可以看到示例中：

整个实验周期中，A 组有 12100 个样本参与，B 组有 12200 个样本参与；

A 组的成功付费转化率为 1.65%，B 组的成功付费转化率为 1.97%（为了简单演示，没有给出置信区间估计）。

如果单靠看转化率的变化，我们可以看到 B 组有些效果，但提升是否真的有显著效果呢？

这就要求我们引入统计显著的概念了，先来看示例中我们计算的结果是 95% 显著，这个就能极大给我们信心说结果是显著的。

当转化率结果显著，这个意味着实验有胜出组了，然后看 ARPU 表现，即可大概率确认实验的效果。

这里只举一个指标评估做为例子，实际评估还需要结合实际业务来看，包括评估方案的正向反向效果。

一个小技巧：当我们的运营团队不知道如何分析结果的归因时，采用转化前后的用户行为做差异分析，这样就能大概率做到对结果的归因分析了，关于归因仍为一个大专题，不在这里做详述。

统计是否显著概念

如果有朋友学过统计学或者接触过类似的概念，相信不会陌生，这里只做下概念普及，为了通俗易懂，有些描述可能也不是特别的科学严谨。

统计推断的概念需要有一个【原假设】，这个【原假设】我们一般假设实验的方案不如老方案效果好，然后想办法推翻，以此来坚信我们的实验是有效果。

例如这个效果指付费转化率，那么就是说，实验的 B 组的成功概率（用 PB 表示）不如实验 A 组的成功概率（用 PA 表示）高，即 PB<= PA。

有了【原假设】，接下来只需要找证据推翻上述【原假设】就可以了。

前面实验中 PB=1.97%，而 PA=1.65%，PB>PA，这个时候可以推翻原假设吗？

不能确定，因此需要引入统计显著的概念，一般显著度达到 95% 以上，就可以有足够的信心推翻原假设。

这个 95% 你可以简单理解为 PB>PA 发生的概率超过 95%，这样我们的信心就很足了。

关于显著度的计算这里不深入展开，只是提供大家一个判断依据，对效果的评估要加上这个会比较科学，这样能知道方案上线后有效果的把握程度。

注意：发生概率高，不代表一定会发生，所以要做好上线后随时准备面临结果不如意的心态。

别忘了细分实验结果

在我们多次跑实验的经验，尤其是对于出海应用，我们面临了很多的国家市场，来自全球各地人付费文化和行为模式是存在差异的，因此我们前期实验选择的群体可能就包含了不同消费特性的人群，因此无论在总体结果是否显著的情况下，我们都应该做更多维度的细分。

这样我们能有效发现那些响应不足或响应后效果差的地区，对策略做出及时的调整。

巧妙利用 AABB 分组

这个是我最后想补充的内容。

想必大家都会遇到一些波动特别大的指标，类似一些收入指标，那实验出现随机的结果是很可能发生的，这个时候 AABB 分组策略能给我们提供一些信息。

假如我们实验只是简单的分为两组，实际上我们还能够将 A 组划分成 A1、A2，将 B 组划分成 B1、B2 组。

通过对比组间，如 A 组和 B 组的结果来衡量实验效果。

还能通过对比 A1 和 A2，或对比 B1 和 B2 来确认组内的数据是否稳定，如果组内数据差异过大，而组间差异也表现差异很明显的时候，这个时候就要小心我们前面提到的随机发生的结果。

因此 AABB 分组还够给我们提供更多的实验信息，大家可以去尝试一下。

免责声明

本文链接:

本文经作者许可发布在AMZ123跨境头条，如有疑问，请联系客服。

超158%速度增长的亚马逊潜力站点购买力，这些掘金知识点你必须掌握！

所有口罩都要法检吗？口罩出口快速通关指南！

最新热门报告作者标签

26年澳洲情人节支出将达5.5亿澳元，消费意愿下降

AMZ123获悉，近日，根据澳大利亚零售协会（ARC）和Roy Morgan的最新调查，澳大利亚情人节的消费意愿出现明显下降，越来越多消费者在成本压力下减少对非必需品的支出，但参与者的平均支出仍保持稳定。调查显示，成本上涨正在持续影响家庭的可支配支出，许多家庭对非必需开支更加谨慎。今年仅有12%的澳大利亚成年人计划庆祝情人节，约为300万人，比去年下降4个百分点。与去年相比，计划为伴侣购买礼物的人数减少约80万人，主要原因是生活成本压力持续影响可自由支配支出。尽管参与人数下降，但澳大利亚情人节支出预计达到5.5亿澳元，较去年增长2.8%，人均支出约为152澳元。

Seedance2.0刷屏全网，TikTok卖家：红利来了！

字节正式发布Seedance2.0，TikTok卖家已经用上赚钱了!

月销数十万！这10个小众产品爆单亚马逊

AMZ123获悉，近日，亚马逊各类产品搜索量增长显著，以下10款产品在亚马逊上销量表现突出，深受消费者欢迎。1.修复眼罩预计销售额：50万美元/月销量：5000+星级评分：4.3好评数量：8,505+图源：亚马逊产品介绍：该修复眼罩主要是专为眼部抗衰老与焕亮设计，通过缓释视黄醇成分有效减少细纹、改善皮肤饱满度，并针对性缓解黑眼圈与浮肿问题。产品采用融合海藻提取物、神经酰胺及脂肪酸的复合配方，能在夜间修复阶段滋养娇嫩眼周肌肤。适用于熬夜、疲劳或重要场合前的密集护理，亦可作为礼品。品牌介绍：Grace & Stella是一家成立于2016年的品牌，以“创造美好时刻”为核心理念，致力于通过日常护理提升生活品质。

Jumia 25财年营收1.9亿美元，同比增长13%

AMZ123获悉，近日，非洲电商平台Jumia发布了截至2025年12月31日的全年及第四季度财报。Jumia在2025年实现了GMV和收入增长，预计2026年有望保持强劲增长。以下为Q4财务亮点：①营收为6140万美元，同比2024年第四季度的4570万美元增长34%，按固定汇率计算增长24%。②GMV为2.795亿美元，同比2024年第四季度的2.061亿美元增长36%，按固定汇率计算增长23%。剔除南非和突尼斯市场，实物商品GMV同比增长38%。③运营亏损为1060万美元，同比2024年第四季度的1730万美元下降39%，按固定汇率计算下降22%。

血亏500万，跨境“黄金搭档”正式散伙

这两天，跨境圈又冒出一条不太体面的公告。不是封号，不是裁员，而是一场曾被寄予厚望的上市公司级合作，正式宣告失败。1月23日，浙江永强发布公告，确认与跨境大卖傲基股份中止跨境电商合作。双方通过互相转让子公司股权，彻底清空交叉持股关系。一句话概括这段合作的结局：故事很完整，结果很现实。图源网络,侵删01从制造+跨境的理想模版，到体面分手时间回到2023年11月。当时的傲基，已经完成从3C铺货向家居、家具赛道的转型；而浙江永强，作为国内户外家具龙头，正寻找新的增长出口。

暴涨94%！25年TikTok Shop全球GMV达643亿美元

AMZ123获悉，近日，据Momentum的最新报告显示，2025年，美国仍是TikTokShop最大的市场，GMV达到151亿美元，同比增长68%，高于2024年的90亿美元。尽管增速不及2024年爆发式增长，但仍显示出强劲扩张势头，反映出TikTok Shop正在从初期试验阶段向系统化运营阶段过渡。全球范围内，TikTok Shop在16个市场的总GMV达到643亿美元，同比大幅增长94%。其中，东南亚市场依然是主要增长引擎，2025年东南亚地区GMV同比增长一倍，达到456亿美元。马来西亚、印尼和泰国的增长最为突出，其中印尼市场达到131亿美元，成为TikTok Shop全球第二大市场。

新一轮物流危机来袭，大批跨境货物滞留港口！

腊月尾声，年味渐浓，状况频出的物流难题却成为了横亘在卖家面前的一头“年兽”。随着全国主要港口拥堵、陆路运费疯涨的事态持续升温，物流延误焦虑正在跨境电商行业蔓延。AMZ123了解到，春节前夕历来是跨境电商的出货高峰期——在国外不停卖、国内要放假、物流时效长、怕平台断货等多重因素的叠加影响下，大批卖家通常会抢在节前集中把货物发出。但在今年，这一出货高峰期带来的连锁效应格外汹涌。据物流人士透露，2026年2月，上海、宁波、盐田、南沙等主要港口都进入了超负荷运行状态，出现严重爆仓、收箱收紧等情况，导致大量卖家货物堆积在码头，面临甩柜率高企的风险。

全球第三大港口商深陷爱泼斯坦案 24小时内两大顶级金主撤资

全球码头投资版图将重洗？

月销百万美金！亚马逊10款高复购+高评分产品推荐

AMZ123获悉，近日，亚马逊各类产品搜索量增长显著，以下10款产品在亚马逊上销量表现突出，深受消费者欢迎。1. 智能戒指预计销售额：819万美元/月销量：32,050+星级评分：4.1好评数量：8,284+图源：亚马逊产品介绍：该智能戒指通过内置传感器持续监测用户的睡眠、活动、心率、体温变化等多项健康数据，并通过手机应用进行整合分析。产品采用全钛金属结构，支持全天候佩戴，具备防水性能和较长续航时间。相比传统可穿戴设备，其无屏幕设计降低了使用干扰，更侧重长期健康数据的连续采集与趋势分析。品牌介绍：Oura 是一家成立于 2013 年的芬兰健康科技公司，以智能戒指作为核心产品，聚焦睡眠与身体恢复管理。

月销数十万！这10个小众产品爆单亚马逊

26年英国情人节市场将达21亿英镑，送礼对象发生变化

AMZ123获悉，近日，根据全球礼品电商平台Flowwow发布的数据，英国情人节消费正在发生明显变化。消费者不再只为情侣准备礼物，而是将消费扩展至朋友、自己，甚至宠物。预计今年英国情人节销售额将达21亿英镑，电商平台订单量同比增长27%，客单价上涨68%至143英镑。在商品结构方面，花束仍然占主导地位，占总订单的89%，糖果占6%，气球占2%，显示传统礼品依然是主流，但品类正在逐步多元化。自我赠礼成为增长最快的细分领域。数据显示，英国情人节自我消费同比增长120%。这一趋势与英国整体健康和身心护理市场的扩张相关，该市场预计到2026年将达到410亿英镑。

新一轮物流危机来袭，大批跨境货物滞留港口！

Seedance2.0刷屏全网，TikTok卖家：红利来了！

字节正式发布Seedance2.0，TikTok卖家已经用上赚钱了!

波兰电商市场大变天！Temu用户数超2034万

AMZ123获悉，近日，据外媒报道，波兰电商市场的竞争格局正在经历一场深刻的转变。根据Mediapanel的数据，今年1月，Temu在波兰市场的实际用户数量已达到2034万，同比增长12.6%；而本土老牌电商Allegro用户数仅同比增长2.8%，达到1890万。除此之外，Temu凭借约68.0%的互联网用户覆盖率成为波兰触及面最广的电商平台，而Allegro的电商覆盖率为63.2%。除了Temu之外，还有两家来自中国的电商平台也位列波兰电商用户数排行榜前十。速卖通拥有1016万用户，同比上升2.7%，覆盖率达34%；Shein则拥有839万用户，覆盖率达28.1%。

暴涨94%！25年TikTok Shop全球GMV达643亿美元

血亏500万，跨境“黄金搭档”正式散伙

《中企出海美国季度研究报告》PDF下载

近年来，随着全球化进程的深化与中国经济实力的持续提升，越来越多的中国企业将目光投向海外市场。美国作为全球最大经济体创新高地和消费市场，始终是中企出海战略中的关键目标。从制造业到科技领域，从消费品到金融服务，中国企业的国际化步伐不断加快，既彰显了“中国智造”的全球竞争力，也面临复杂的政策环境、文化差异与市场竞争等挑战。

《跨境蓝海拉美市场洞察 - 墨西哥篇》PDF下载

墨西哥位于北美大陆南部，北邻美国，政局稳定，法律健全，是拉丁美洲地区第一贸易大国和重要的外国直接投资目的地。墨西哥拥有 1.28亿人口，是仅次于巴西的拉美第二大经济体，同时也是拉美第三大线上零售市场，无论是互联网的普及率还是使用率在拉美市场都处于佼佼者。

《东南亚出海合规实操指南手册》PDF下载

近年来，东南亚电商市场以迅猛的增长态势成为全球贸易的新蓝海，印尼马来西亚、新加坡等六国凭借庞大的人口基数、持续提升的互联网渗透率吸引着无数中国卖家前来布局。

《2025中国新能源汽车产业链出海洞察报告 - 匈牙利篇》PDF下载

中国汽车市场新能源汽车渗透率已达50%，各主机厂纷纷开启价格战，让利消费者，并承担相应的利润损失，在中国新能源汽车市场逐渐成为红海的的大背景下，海逐渐成为各主机厂主动或被动的选择。

《2024哥伦比亚电商市场概览报告》PDF下载

哥伦比亚位于南美洲西北部，是拉丁美洲第三大国家，北部是加勒比海，东部与委内瑞拉接壤，东南方是巴西，南方是秘鲁和厄瓜多尔，西部是巴拿马和太平洋。 

《2026独立站卖家日历》PDF下载

2026 独立站卖家日历 2026 全年营销节奏

《2025中东北非消费者数字经济报告》PDF下载

2025年的报告不仅持续跟踪数字经济的同比增长,也更深入:我们探讨了新兴技术对下一波数字化转型的影响力,还首次将中东北非国家及地区的消费者行为偏好与全球其他市场进行对比。

《2025年终大促旺季AI消费趋势报告》PDF下载

随着人工智能 AI的爆发式增长，如 ChatGPT、Perplexity 和Llama等交互式聊天机器人正在渐渐成为大众研究和推荐的首选工具。根据 AI智能体功能的更新迭代，目前已经可以完成网购下单、预订服务、及交易支付，现已被统称为 AI智能体电商Agentic Commerce，且其采用率正呈现出滚雪球式的增长。

亚马逊公告

AMZ123旗下亚马逊公告发布平台，实时更新亚马逊最新公告，致力打造最及时和有态度的亚马逊公告栏目!

跨境平台资讯

AMZ123旗下跨境电商平台新闻栏目，专注全球跨境电商平台热点事件，为广大卖家提供跨境电商平台最新动态、最热新闻。

侃侃跨境那些事儿

不侃废话，挣钱要紧！

AMZ123选品观察员

选品推荐及选品技巧分享。

北美电商资讯

AMZ123旗下北美跨境电商新闻栏目，专注北美跨境电商热点资讯，为广大卖家提供北美跨境电商最新动态、最热新闻。

AMZ123跨境电商

专注跨境行业热点事件报道，每日坚持推送原创深度热文

AMZ123卖家导航

这个人很懒，还没有自我介绍

AMZ123会员

「AMZ123会员」为出海者推出的一站式私享服务

从设计到归因 AB Test实战心得

白鲸出海

2020-04-20 23:32

9469

关于 AB Test

说到 AB Test 大家都不会陌生，也是增长黑客概念流行以来非常热门的话题，我曾与业内经常做 AB Test 的朋友交流，也遇到过这类常见的问题：

1. 方案存在多变量，没有控制唯一变量，实验结果很难归因和解释

2. 多组实验同时跑，不知道实验的变量相互干扰

3. 不确定如何有效评估实验，提升多少算有效？

4. 实验结果看起来有效果，上线后却效果不明显

5. 实验结果看起来有效果，但不知道为何，无法归因出原因

我们最可怕的不是不知道要开展 AB 实验，而是明知道要开展，却不知道如何科学开展或开展后面对数据结果一脸茫然。

如何科学开展实验呢

首先，实验的过程可以简单分为三步：

. 实验设计 - 包括实验的想法，背景，假设，方案，指标等

. 实验上线 - 包括实验 AB 功能，数据采集，测试和上线

. 实验评估 - 包括数据获取，对比分析，转化结果显著度，实验结果归因，结论，建议和计划

具体过程相信大家不会陌生，所以不会逐个介绍，下面我们重点聊聊整个过程可能常遇到的问题和经验教训，这也是我本次想分享的核心。

看似简单的实验设计，更需要重视

1、实验想法拿数据做支持

. 真实的情况是，我们完全可以拿数据否掉很多不靠谱的想法

. 由于本次分享的内容侧重点，这块内容以后的机会再分享

2、实验目标说清楚，写下来

. 清晰的实验目标能够让方案聚焦，也避免评估结果的相互扯皮

. 如果团队有人想要收入，有人想要留存，这往往打架的实验目标会造成后续的一系列麻烦

经历：

3、实验方案设计

. 清楚了解自己的实验目标，设定测试中想要测试的变量

. 尽量避免要评估的方案存在多变量的情况，控制唯一变量，有利于得到更多实验信息

. 分组设计会是另一个重点，我们放在后面来讲

经历：

这个过程就好比如下，同时修改了颜色和文案那样，我们无法知道颜色和文案分别的影响。

尽量不要做出这样的对比，在实验前想清楚，再想清楚，把你要评估的变量梳理清楚，这样再把变量拆开。

如下：

实验设计方案参考如下模板

关于数据采集这块我就不做分享了，不是本次的重点，后续有机会我们再拿来分享。

AB 实验工具

笔者使用过多个 AB 工具，包括自研 AB 系统，Firebase 等第三方支持 AB 的工具，我总结了常见 AB 工具的几个特性，供大家今后需要的时候参考。

当我们创建一个 AB Test 时，需要有：

. 实验灰度：假如你的实验不想影响所有用户，那么这个正是你所需要的，可以实现逐步放量，相对完善的 AB 工具均有此类选项，如 Firebase

. 配置项：一般指可以由后端自定义值的【远程配置】，例如：是否展示免费试用商品，就是一个【远程配置】

. 实验分组：任意增加多个分组，并为各组选择配置项，配置项的值，以及该组的样本比例

如果大家是做出海的 App，Firebase 是我优先推荐的，它是谷歌的产品，而且免费，但唯一不好是对国内支持不好，所以可以根据实验群体和场景选择哦。

实验分组

1、按照用户 ID 等属性计算随机值

我们团队一开始通过用户 ID 来实现简单的随机分组，这个方式在我们跑多组实验的时候遇到了问题。

按用户 ID 属性计算分组值存在的潜在问题如下：

因此这种情况下你只能同时跑一组实验。

2、按照用户 ID 等属性和实验 ID 计算随机值

3、另外一种分组方案探索

我身边也有朋友在这么做，这只是分享给大家参考，大家可以结合自己的实际情况来决定。

如果大家选择一些 AB 工具则可以不用太担心，人家已经实现了合理的分组，按照说明设置就好了，但在自己实现分组的时候则需要特别留意这块了。

实验评估

这里我们关注一个重点，如何评估实验结果是否有效，或者说如何评估提升多少才算有效？

关于如何选取评估指标，这个需要大家结合实际业务场景来确定，这个就不介绍了（注意，我们往往不会评估单一指标）。

对于出海来说，尤其是工具类产品，最不陌生的就是免费试用了，这个苹果和谷歌为我们提供了很成熟的产品支持

我就拿这个举例子，也是我们团队亲身经历过的项目。

先做个简单假设：上线 7 天免费试用，能够对收入有提升 10%，提高用户付费转化率提高 10%。

核心评估指标：

. 用户付费转化率（7 天内，0 金额不计算）

. ARPU（7 天内）

实验分组：

A 控制组，默认不曝光

B 实验组，曝光 7 天免费试用，显示免费试用字样

参考下面数据例子，

我们可以看到示例中：

整个实验周期中，A 组有 12100 个样本参与，B 组有 12200 个样本参与；

A 组的成功付费转化率为 1.65%，B 组的成功付费转化率为 1.97%（为了简单演示，没有给出置信区间估计）。

如果单靠看转化率的变化，我们可以看到 B 组有些效果，但提升是否真的有显著效果呢？

这就要求我们引入统计显著的概念了，先来看示例中我们计算的结果是 95% 显著，这个就能极大给我们信心说结果是显著的。

当转化率结果显著，这个意味着实验有胜出组了，然后看 ARPU 表现，即可大概率确认实验的效果。

这里只举一个指标评估做为例子，实际评估还需要结合实际业务来看，包括评估方案的正向反向效果。

统计是否显著概念

如果有朋友学过统计学或者接触过类似的概念，相信不会陌生，这里只做下概念普及，为了通俗易懂，有些描述可能也不是特别的科学严谨。

例如这个效果指付费转化率，那么就是说，实验的 B 组的成功概率（用 PB 表示）不如实验 A 组的成功概率（用 PA 表示）高，即 PB<= PA。

有了【原假设】，接下来只需要找证据推翻上述【原假设】就可以了。

前面实验中 PB=1.97%，而 PA=1.65%，PB>PA，这个时候可以推翻原假设吗？

不能确定，因此需要引入统计显著的概念，一般显著度达到 95% 以上，就可以有足够的信心推翻原假设。

这个 95% 你可以简单理解为 PB>PA 发生的概率超过 95%，这样我们的信心就很足了。

关于显著度的计算这里不深入展开，只是提供大家一个判断依据，对效果的评估要加上这个会比较科学，这样能知道方案上线后有效果的把握程度。

注意：发生概率高，不代表一定会发生，所以要做好上线后随时准备面临结果不如意的心态。

别忘了细分实验结果

这样我们能有效发现那些响应不足或响应后效果差的地区，对策略做出及时的调整。

巧妙利用 AABB 分组

这个是我最后想补充的内容。

假如我们实验只是简单的分为两组，实际上我们还能够将 A 组划分成 A1、A2，将 B 组划分成 B1、B2 组。

通过对比组间，如 A 组和 B 组的结果来衡量实验效果。

因此 AABB 分组还够给我们提供更多的实验信息，大家可以去尝试一下。

超158%速度增长的亚马逊潜力站点购买力，这些掘金知识点你必须掌握！

所有口罩都要法检吗？口罩出口快速通关指南！

热门活动

进行中

链新机启新局—亚马逊全球开店2026春耕大会·厦门站

进化新纪元·AI重构POD全球出海增长峰会

其他

04-16 周四

立即报名

热门报告

《2025跨境电商行业年度报告》PDF下载

01-21 周三

立即领取

《2025 TikTok Shop 年度调研报告》PDF下载

02-03 周二

立即领取

《2025上半年TikTok Shop调研报告-TT123》PDF下载

08-19 周二

立即领取

热门搜索

从设计到归因 AB Test实战心得

官方客服

官方微信群