AMZ123跨境卖家导航
拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条文章详情

从设计到归因 AB Test实战心得

8861
2020-04-20 23:32
2020-04-20 23:32
8861

作为数据增长实战分享的第一篇,我先从个人认为最重要的 AB Test 实战开始分享,而分享过程中涉及到重要且无法展开的,未来会慢慢再与大家讨论和分享。甚至我会和大家讲到一些数据平台的使用玩法比如神策、Firebase 等。




关于 AB Test

说到 AB Test 大家都不会陌生,也是增长黑客概念流行以来非常热门的话题,我曾与业内经常做 AB Test 的朋友交流,也遇到过这类常见的问题:

1. 方案存在多变量,没有控制唯一变量,实验结果很难归因和解释

2. 多组实验同时跑,不知道实验的变量相互干扰

3. 不确定如何有效评估实验,提升多少算有效?

4. 实验结果看起来有效果,上线后却效果不明显

5. 实验结果看起来有效果,但不知道为何,无法归因出原因

我们最可怕的不是不知道要开展 AB 实验,而是明知道要开展,却不知道如何科学开展或开展后面对数据结果一脸茫然。



如何科学开展实验呢 

首先,实验的过程可以简单分为三步:

. 实验设计 - 包括实验的想法,背景,假设,方案,指标等

. 实验上线 - 包括实验 AB 功能,数据采集,测试和上线

. 实验评估 - 包括数据获取,对比分析,转化结果显著度,实验结果归因,结论,建议和计划

具体过程相信大家不会陌生,所以不会逐个介绍,下面我们重点聊聊整个过程可能常遇到的问题和经验教训,这也是我本次想分享的核心。



看似简单的实验设计,更需要重视

1、实验想法拿数据做支持

. 记住不要光拍脑袋不分析数据,这是提高实验成功率的有效途径,否则你将会承担更高的实验风险,要么实验没有效果,要么实验效果下滑,这些都是浪费资源的做法

. 公司不会有那么多时间和资源投入到一个又一个失败的实验方案中,因此想法很重要,但更重要的是参考、分析,为你的实验想法提供数据依据,拿数据说话

. 真实的情况是,我们完全可以拿数据否掉很多不靠谱的想法

. 由于本次分享的内容侧重点,这块内容以后的机会再分享

2、实验目标说清楚,写下来

. 清晰的实验目标能够让方案聚焦,也避免评估结果的相互扯皮

. 如果团队有人想要收入,有人想要留存,这往往打架的实验目标会造成后续的一系列麻烦

经历:

我们曾遇到过一个实验对于收入的效果非常显著,但却损害了用户体验,导致用户认为应用收费性质过强而流失,但团队一致认为当前收入最重要,且通过数据验证了流失的用户均是较为低质的活跃用户,对长期留存来看并无意义,只是短期留存不好,DAU 会下滑。

但团队中有人则认为前期的活跃用户更重要,不想流失用户和 DAU 下滑,这个就团队在前期没有确定一个一致的目标造成,最后的结果则是非常不欢,方案也没有上线,非常打击团队的信心。

我们不要总期待鱼和熊掌兼得,那是可遇不可求的,我们也正是一直在方案的利弊中,学会权衡并决策前行,这才是可贵的成长和经验,我们总要学会抛弃芝麻捡西瓜,把目标定下来,会更利于我们的决策。

3、实验方案设计

. 清楚了解自己的实验目标,设定测试中想要测试的变量

. 尽量避免要评估的方案存在多变量的情况,控制唯一变量,有利于得到更多实验信息

. 分组设计会是另一个重点,我们放在后面来讲

经历:

我们曾犯过这类错误,上线一个新的付费页面,但我们实验设计前期没有想清楚可以评估和实验的变量,导致我们只控制了展不展示该页面,但该付费页面我们换了新商品,更换了 SKU 组合,更换了商品的折扣属性,页面也放置在用户完成关键动作后出现。

不难想象,我们最终只得到了一个大而全的策略结果,而不知道页面里面的变化能起到的关键作用,因此我们浪费了一次机会,丢失了本可以获取的实验信息。

这个过程就好比如下,同时修改了颜色和文案那样,我们无法知道颜色和文案分别的影响。

尽量不要做出这样的对比,在实验前想清楚,再想清楚,把你要评估的变量梳理清楚,这样再把变量拆开。

如下:

实验设计方案参考如下模板

关于数据采集这块我就不做分享了,不是本次的重点,后续有机会我们再拿来分享。



AB 实验工具

笔者使用过多个 AB 工具,包括自研 AB 系统,Firebase 等第三方支持 AB  的工具,我总结了常见 AB 工具的几个特性,供大家今后需要的时候参考。

当我们创建一个 AB Test 时,需要有:

• 用户圈选:一般要求系统能够对目标实验群体做圈选,满足的用户进入 AB Test,建议支持系统已有的用户属性,行为数据,用户标签等作为可选择维度,第三方工具则要求相关数据上报,需做好前期的实验设计和数据采集工作

. 实验灰度:假如你的实验不想影响所有用户,那么这个正是你所需要的,可以实现逐步放量,相对完善的 AB 工具均有此类选项,如 Firebase

. 配置项:一般指可以由后端自定义值的【远程配置】,例如:是否展示免费试用商品,就是一个【远程配置】

. 实验分组:任意增加多个分组,并为各组选择配置项,配置项的值,以及该组的样本比例

. 实验分组标记:每个创建的实验都建议为每个实验创建一个 Track Tag,将分组名称作为值,如 Test1_Control,Test1_VarB,Test1_VarC,然后作为一个用户的标签标记上,同时要避免标签数据被覆盖导致历史实验数据丢失

如果大家是做出海的 App,Firebase 是我优先推荐的,它是谷歌的产品,而且免费,但唯一不好是对国内支持不好,所以可以根据实验群体和场景选择哦。

当然最灵活的还是自研 AB 系统,但是这个需要一个较有经验的增长产品经理或增长数据分析师来参与比较好系统的设计和数据采集,这样才能较好确保系统的可用,否则仍会出现很多坑,下面我来讲一下我们团队在实验分组遇到过的问题。



实验分组

1、按照用户 ID 等属性计算随机值

我们团队一开始通过用户 ID 来实现简单的随机分组,这个方式在我们跑多组实验的时候遇到了问题。

按用户 ID 属性计算分组值存在的潜在问题如下:

假如一个用户 U3,基于该用户 ID 通过某种随机算法计算得到 59,按照随机算法被分配到 50%~100% 这个区间,此时如果 Test1 区分 AB 两组,各 50%,那么用户 U3 应该会被分配到 Test1 的 B 组;此时如果又有 Test2 区分 AB 两组,各 50%,那么该用户仍会被分配到 Test2 的 B 组。

最后当我们要对 Test1 的 A 组和 B 组做对比时,假设 Test2 也会或多或少影响 Test1 的目标转化,那么就会多了一个 Test2 的干扰因素,从而两个实验的变量会相互干扰结果,无法评估某个 Test 变量的贡献,如下图所示:

因此这种情况下你只能同时跑一组实验。 

2、按照用户 ID 等属性和实验 ID 计算随机值

后来,我们采用另外一种分组方案,按照用户 ID 和实验 ID 共同决定随机值,这样起到在每个实验中,两组的用户也分别均匀分布在其他实验的各组值中,如下图所示原理,理论上两个实验均设置两组各 50%,则样本预计将平衡贴近 25%。

理论上,Test1 和 Test2 就相互不干扰了,因为在分组足够均衡的情况下,Test1 AB 各组受其他实验的影响也被均衡了,可以近视忽略不同变量相互之间的影响。

3、另外一种分组方案探索

我们团队还尝试过另外一种方案,这种方式就是把用户按照一个个规定的桶,将用户随机分配好,然后为实验具体组选择某个(几个)桶的用户,会比较强隔离每个实验,互不干扰,相对来说比较方便,但却需要有专人管理和把控实验资源的配置,且样本量要足够大,否则一旦筛选了条件导致样本量不够多,则会面临分组不够用的问题。

我身边也有朋友在这么做,这只是分享给大家参考,大家可以结合自己的实际情况来决定 。

如果大家选择一些 AB 工具则可以不用太担心,人家已经实现了合理的分组,按照说明设置就好了,但在自己实现分组的时候则需要特别留意这块了。



实验评估

这里我们关注一个重点,如何评估实验结果是否有效,或者说如何评估提升多少才算有效?

关于如何选取评估指标,这个需要大家结合实际业务场景来确定,这个就不介绍了(注意,我们往往不会评估单一指标)。

对于出海来说,尤其是工具类产品,最不陌生的就是免费试用了,这个苹果和谷歌为我们提供了很成熟的产品支持

我就拿这个举例子,也是我们团队亲身经历过的项目。

先做个简单假设:上线 7 天免费试用,能够对收入有提升 10%,提高用户付费转化率提高 10%。

核心评估指标:

. 用户付费转化率(7 天内,0 金额不计算)

. ARPU(7 天内)

实验分组:

A 控制组,默认不曝光

B 实验组,曝光 7 天免费试用,显示免费试用字样

参考下面数据例子, 

我们可以看到示例中:

整个实验周期中,A 组有 12100 个样本参与,B 组有 12200 个样本参与;

A 组的成功付费转化率为 1.65%,B 组的成功付费转化率为 1.97%(为了简单演示,没有给出置信区间估计) 。

如果单靠看转化率的变化,我们可以看到 B 组有些效果,但提升是否真的有显著效果呢?

这就要求我们引入统计显著的概念了,先来看示例中我们计算的结果是 95% 显著,这个就能极大给我们信心说结果是显著的。 

当转化率结果显著,这个意味着实验有胜出组了,然后看 ARPU 表现,即可大概率确认实验的效果。

这里只举一个指标评估做为例子,实际评估还需要结合实际业务来看,包括评估方案的正向反向效果。 

一个小技巧:当我们的运营团队不知道如何分析结果的归因时,采用转化前后的用户行为做差异分析,这样就能大概率做到对结果的归因分析了,关于归因仍为一个大专题,不在这里做详述。



统计是否显著概念

如果有朋友学过统计学或者接触过类似的概念,相信不会陌生,这里只做下概念普及,为了通俗易懂,有些描述可能也不是特别的科学严谨。

统计推断的概念需要有一个【原假设】,这个【原假设】我们一般假设实验的方案不如老方案效果好,然后想办法推翻,以此来坚信我们的实验是有效果。

例如这个效果指付费转化率,那么就是说,实验的 B 组的成功概率(用 PB 表示)不如实验 A 组的成功概率(用 PA 表示)高,即 PB<= PA。

有了【原假设】,接下来只需要找证据推翻上述【原假设】就可以了。

前面实验中 PB=1.97%,而 PA=1.65%,PB>PA,这个时候可以推翻原假设吗?

不能确定,因此需要引入统计显著的概念,一般显著度达到 95% 以上,就可以有足够的信心推翻原假设。

这个 95% 你可以简单理解为 PB>PA 发生的概率超过 95%,这样我们的信心就很足了。

关于显著度的计算这里不深入展开,只是提供大家一个判断依据,对效果的评估要加上这个会比较科学,这样能知道方案上线后有效果的把握程度。

注意:发生概率高,不代表一定会发生,所以要做好上线后随时准备面临结果不如意的心态。



别忘了细分实验结果

在我们多次跑实验的经验,尤其是对于出海应用,我们面临了很多的国家市场,来自全球各地人付费文化和行为模式是存在差异的,因此我们前期实验选择的群体可能就包含了不同消费特性的人群,因此无论在总体结果是否显著的情况下,我们都应该做更多维度的细分。

这样我们能有效发现那些响应不足或响应后效果差的地区,对策略做出及时的调整。



巧妙利用 AABB 分组

这个是我最后想补充的内容。

想必大家都会遇到一些波动特别大的指标,类似一些收入指标,那实验出现随机的结果是很可能发生的,这个时候 AABB 分组策略能给我们提供一些信息。

假如我们实验只是简单的分为两组,实际上我们还能够将 A 组划分成 A1、A2,将 B 组划分成 B1、B2 组。

通过对比组间,如 A 组和 B 组的结果来衡量实验效果。

还能通过对比 A1 和 A2,或对比 B1 和 B2 来确认组内的数据是否稳定,如果组内数据差异过大,而组间差异也表现差异很明显的时候,这个时候就要小心我们前面提到的随机发生的结果。

因此 AABB 分组还够给我们提供更多的实验信息,大家可以去尝试一下。

免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签
俄罗斯电商市场快速增长,综合平台优势大于独立站
AMZ123获悉,近日,Euromonitor、EMARKETER及Yakov and Partners发布了《俄罗斯电商市场发展现状》报告。报告基于2020-2024年的数据,对俄罗斯电商市场的发展趋势、综合电商平台与独立电商的竞争格局、各品类表现、未来市场预测进行了系统分析。一、俄罗斯电商趋势1.互联网渗透率增长放缓2020至2024年,俄罗斯互联网使用率从78.1%(约9560万用户)提升至85.5%(约1.04亿用户),四年间增加7.4%(新增约790万用户)。俄罗斯的互联网渗透率增速正在逐年放缓,预计到2029年互联网渗透率将达到89%(约1.08亿用户)。
越南加强进口商品监管,修订多项增值税和海关规则
AMZ123获悉,近日,越南海关公布了2026年对增值税(VAT)、特别消费税(SCT)及电子交易管理的多项修订,核心在于统一税制规则、扩大免税范围并加强跨境与电子化申报管理。此次调整既有减轻企业合规成本、扶持出口与产业链升级的内容,也伴随对部分消费品与临时进口再出口环节的更严监管,直接影响生产、进出口和跨境电商卖家。在增值税方面,新法律将此前零散的官方函件并入法律和配套法令,提升透明度并便于电子化处理。关键变化包括扩大增值税免税目录:列入政府清单的自然资源与矿产(无论原料还是加工品)在出口时被明确归为增值税免税项目。
TikTok Shop黑五复盘,一堆中国卖家晒出百万GMV
黑五复盘,TikTok卖家:“库存差点给我爆完了!”
存生命危险!美国CPSC紧急召回超1万件儿童手写板玩具
AMZ123获悉,近日,美国消费品安全委员会(CPSC)宣布,紧急召回亚马逊在售的KTEBO品牌的儿童书写板玩具,原因是该产品未能符合玩具类产品的强制性安全标准,电池仓固定螺丝无法保持牢固,可能导致纽扣电池外露。若儿童误吞纽扣电池,可能造成严重伤害、内部化学灼伤,甚至威胁生命。此次召回涉及KTEBO品牌的双件套书写平板玩具,召回数量约10,380件,产品提供四种颜色组合,包括粉色/蓝色、绿色/黄色、橙色/蓝色以及紫色/红色,并有8.5英寸与10英寸两种规格,每套配有与机身同色的手写笔。
AliExpress波兰11月增长显著,双十一活动日活用户增长37%
AMZ123获悉,近日,AliExpress的数据显示,平台11月的消费者参与度与卖家销售额大幅增长。今年11月11日至19日举行的AliExpress双十一购物节活动期间,波兰用户的参与度显著提升,日活跃用户数量同比增长37%。随着去年秋季AliExpress开放波兰本地卖家入驻,今年波兰本地卖家的参与度也明显提高,他们在此次双十一促销期间的GMV同比增长74%。从消费偏好来看,智能生活类产品持续吸引波兰消费者,智能家居与清洁设备成为销售榜单的主导品类。Dreame、ILIFE、Laresar等品牌的扫地机器人和自动吸尘设备进入最畅销产品行列,反映波兰家庭对智能化、便捷化生活方式的需求不断上升。
亚马逊印度计划投资127亿美元,推动本地云和AI基础设施建设
AMZ123获悉,近日,亚马逊宣布,将在2030年前进一步推动人工智能在印度的普及,计划投入127亿美元建设本地云和AI基础设施。亚马逊表示,这项长期投资将为超过1500万家中小企业带来AI应用能力,同时在2030年前为400万名公立学校学生提供AI素养课程与职业教育,提高数字技能普及度。亚马逊认为,AI正成为提升印度数字包容性的关键力量,能够突破语言、读写能力与访问渠道的限制,让更多个人与企业受益。在中小企业领域,亚马逊正在推出新一代AI工具,以降低经营门槛、简化业务操作并提升增长效率。
“黑五网一”DTC投放数据复盘,流量都去哪了?
2025 年“黑五网一”大战,终于落下帷幕。除了 GMV ,这场仗花了多少“弹药”,你算清楚了吗?流量场上的每一发子弹,都正中靶心了吗?偏离的原因找到了吗?除了看自己后台的数据,还要看清整个大盘的趋势——这决定了我们下一步该往哪儿走。基于 GoodsFox 监控的投放数据,我们有以下发现:服装、美妆的竞争力度只增不减3D 打印与机械键盘,从“小众圈层”跃升为热门赛道宠物经济的流量稳定,不靠爆点也能撑起大盘这些变化背后,都在重塑今年“黑五网一”的投放结构,我们先从流量基本盘讲起——尽管每年都有新风口,但从广告投放的绝对体量来看,传统大盘仍在支撑整体流量水位。
还在“索评”?亚马逊Review管理的红线与出路
亚马逊的评论管理格局是如何改变的?首先要明确一点:过去几年,亚马逊的Review生态系统发生了剧变,这对各类管理工具产生了深远影响。在买家端,那些专门用来标记“虚假评论”(或帮助买家鉴别真伪)的老一代工具正在失效甚至消失。不少买家就因为Fakespot在平台冲突、合规问题和数据接口变更的压力下关停而感到措手不及。Fakespot是一个分析电商产品评论真实性、帮助消费者识别虚假评价的平台。在卖家端,亚马逊的政策合规和风控机制变得更加严厉。这意味着Review的风险红线变了:以前那些“地毯式索评”或“送测(Giveaway)”的套路可能有效,但现在操作这些手段的封号风险极高。
AMZ123PayPal计算器使用指南及常见问题详解(内附计算公式)
Paypal手续费计算器介绍及计算公式分享 https://www.amz123.com/tools-paypal
重磅!亚马逊公布2026年战略重心变化
AMZ123获悉,12月4日,2025年亚马逊全球开店跨境峰会上,亚马逊回顾了过去一年里中国卖家在亚马逊上所取得的进展,并围绕2026年四大业务战略重点——供应链服务、AI赋能、全球拓展布局、本地服务,揭晓了40余项创新举措。根据亚马逊披露的数据:2025年以来,中国卖家通过亚马逊全球站点售出数十亿件商品,在美欧等成熟站点的销售额增长超过15%,在新兴站点的销售额增长超过30%;2025年以来,销售额达到200万、500万、800万美金的中国卖家数量,增长均超过20%;销售额超过1000万美金的中国卖家数量,增幅近30%。
卖家还在等口径!欠税公示制度却已明确落地
卖家还在“等政策”,但政策已明确趋严过去几个月里,跨境卖家对税务政策最大的期待就是——“能不能再等等,看会不会有新口径”。但事实上,政策并没有往宽松走,而是沿着“数据透明—提醒申报—强化监管”这条路径一步步推进。AMZ123了解到,目前已有超过7000家境内外平台完成涉税信息报送,卖家的线上线下销售数据已全面纳入监管体系。随着数据比对展开,税务部门对申报明显低于平台数据的经营者陆续发出提示,要求补充申报;多数卖家在收到提示后完成了更正,但也的确还有部分经营者迟迟没有动作,继续处于观望甚至低申报的状态。在这种情况下,监管的态度也开始变得更为明确:对于未按规定申报的行为,将从提醒阶段进入到强化管理阶段。
亚马逊新功能,能救你一整条链接!
最近有卖家后台发现,亚马逊多了一个新功能,看起来不起眼,实则很关键——绩效提醒(Performance Notifications)。这个功能解决了我们运营过程中的一个老大难:链接出问题时能不能第一时间被提醒?以前我们发现Listing出状况,大多靠“事后诸葛”:出单突然断了,去查是不是被下架;关键词排名一夜暴跌,才想起去对比转化率;广告Acos拉爆、CTR异常,才知道图可能挂了;等你发现问题,可能已经晚了。这次,亚马逊终于“良心发现”,开始主动提醒你链接的数据异常了。这个新功能到底能干啥?说白了,它就是一个链接级别的数据异常预警系统。
汽配类目又现吸金王,TikTok卖家30天入账1100万
月销量暴涨36007900%,这一汽配用品在TikTok卖爆了
跨界AI失败?深圳大卖资产重组终止!
12月2日,跨境3C 配件大卖杰美特发布公告,宣布决定终止筹划以现金方式收购AI 算力解决方案提供商思腾合力(天津)科技有限公司(以下简称“思腾合力”)控制权的重大资产重组事项。这场筹划半年、备受行业关注的跨界收购突然落幕,消息一出引发市场热议。AMZ123获悉,杰美特于2025年6月21日首次披露了筹划重组的提示性公告,拟通过现金交易控股思腾合力,该交易初步测算构成重大资产重组,且不涉及发行股份、不构成关联交易,也不会导致公司控制权变更。杰美特是“中国手机壳第一股”,主营业务为移动智能终端保护类产品的研发、设计与销售,产品包括手机、平板及穿戴设备的保护壳与表带等。
TikTok Shop英国站黑五创历史新高,销售额同比飙升50%
AMZ123获悉,近日,根据TikTok的公告,TikTok Shop英国站在今年黑色星期五期间创下平台历史最高销售纪录,整体销售额较去年同期提升50%。高峰期出现在黑色星期五当天,当日每秒售出27件商品,刷新TikTok Shop在英国的单日销售纪录。今年消费者开始促销季的时间更早,“假黑五”(Fake Friday,即黑五前一周)的销售额达到去年黑色星期五的纪录水平。黑五周末期间,“TikTok Shop Black Friday”搜索量同比增长404%,成为2025年与黑五相关的最高热度搜索词。同期,平台活跃购物人数较去年增加28%。
宠物消费持续升温,亚马逊10款月销过万宠物产品推荐
AMZ123获悉,近日,亚马逊各类产品搜索量增长显著,以下10款产品在亚马逊上销量表现突出,深受消费者欢迎。1. 猫咪情绪舒缓喷雾预计销售额:139.84万美元/月销量:26,000+星级评分:4.4好评数量:12,694+图源:亚马逊产品描述:FELIWAY Optimum猫咪情绪舒缓喷雾的专利信息素复合物能显著减少猫咪的应激表现,包括喷尿、抓挠、恐惧反应、紧张冲突等。产品无药性、安全且不干扰人类与其他宠物,每个喷雾覆盖面积约 700 平方英尺。
《亚马逊生活日用品类攻略手册》PDF下载
作为日常生活不可或缺的重要组成,生活百货品类覆盖范围广泛,包括家居用品、家具、车用配件、户外装备、园艺 工具、运动器材、家装用品、厨房、玩具以及宠物用品等众多领域。这类产品不仅是满足基本生活所需,更体现了人们对美好生活的向往和追求。
《掘金泰国-市场洞察与战略机遇报告2025》PDF下载
随着全球经济一体化的加速,泰国作为东盟的核心枢纽,凭借其独特的地缘优势庞大的消费市场以及持续优化的营商环境,成为众多企业战略布局的重要目标。本报告深入剖析泰国市场的政策红利、消费趋势、产业机遇以及合规挑战,旨在为有志于开拓泰国市场的中国企业提供行动指南,助力企业在东盟这片充满活力的土地上把握机遇、应对挑战、!实现可持续发展。
《2025欧美假日购物季营销指南》PDF下载
2025年美国假日购物季零售额预计同比仅增长1.2%,总销售额约1.359万亿美元,虽仍保持正增长,但为2009年以来最低增速,市场正在步入低增长的新常态。
《2025年跨境电商东南亚市场进入战略白皮书》PDF下载
东南亚电商,正以惊人的速度复刻中国电商高速增长的黄金时代。2024年东南亚电商GMV达到1284亿美元,短短5年涨幅超过3倍。全球电商2024年GMV增幅最快的十大市场中,东南亚独占四席。东南亚是拥有约6.7亿人口的广阔市场,在现今全球关税的不确定性大格局下,因其电商基建完善,利好的贸易政策,和更高的年轻人口占比,成为跨境卖家生意拓张焦点之一。
《2025年TikTok Shop玩具品类行业报告(欧美站)》PDF下载
分析TikTok Shop美国市场、英国市场、西班牙市场、墨西哥市场等主流市场点短视频及直播电商数据,选取TikTok与玩具爱好品类相关的内容进行分析报告。
《2025 洗护品类趋势与创新洞察》PDF下载
本报告独特价值:将消费者的“行为结果”据),揭示消费者深层心理动机、并能精准预判未来增长机会
《亚马逊双轨增长指南》PDF下载
亚马逊以“以客户为中心”为核心理念,通过整合B2B与B2C的全渠道服务,帮助卖家实现“一店双拓”-- 一次上架,同步触达个人消费者与企业买家,获得双重收益。同时,基于Direct to Buyer(直接触达买家)的模式,更能有效减少中间环节,提升利润空间与品牌掌控力。
《亚马逊全球线上商采趋势与区域洞察》PDF下载
随着全球企业数字化转型的深入推进,B2B商采有望成为下一个万亿级别的蓝海市场然而,中国卖家在开拓海外企业商采市场时往往面临着一个关键挑战:难以准确把握海外企业买家的商采行为和决策模式。这种认知偏差不仅影响了产品开发方向,也制约了市场拓展策略的制定。
跨境电商干货集结
跨境电商干货集结,是结合亚马逊跨境电商卖家交流群内大家在交流过程中最常遇到的问题,进行收集整理,汇总解答,将会持续更新大家当前最常遇见的问题。欢迎大家加入跨境电商干货集结卖家交流群一起探讨。
亚马逊公告
AMZ123旗下亚马逊公告发布平台,实时更新亚马逊最新公告,致力打造最及时和有态度的亚马逊公告栏目!
AMZ123跨境电商
专注跨境行业热点事件报道,每日坚持推送原创深度热文
跨境电商赢商荟
跨境电商行业唯一一家一年365天不断更的媒体!
亚马逊全球开店
亚马逊全球开店官方公众号,致力于为中国跨境卖家提供最新,最全亚马逊全球开店资讯,运营干货分享及开店支持。
亿邦动力网
消除一切电商知识鸿沟,每日发布独家重磅新闻。
AMZ123选品观察员
选品推荐及选品技巧分享。
北美电商资讯
AMZ123旗下北美跨境电商新闻栏目,专注北美跨境电商热点资讯,为广大卖家提供北美跨境电商最新动态、最热新闻。
首页
跨境头条
文章详情
从设计到归因 AB Test实战心得
白鲸出海
2020-04-20 23:32
8860

作为数据增长实战分享的第一篇,我先从个人认为最重要的 AB Test 实战开始分享,而分享过程中涉及到重要且无法展开的,未来会慢慢再与大家讨论和分享。甚至我会和大家讲到一些数据平台的使用玩法比如神策、Firebase 等。




关于 AB Test

说到 AB Test 大家都不会陌生,也是增长黑客概念流行以来非常热门的话题,我曾与业内经常做 AB Test 的朋友交流,也遇到过这类常见的问题:

1. 方案存在多变量,没有控制唯一变量,实验结果很难归因和解释

2. 多组实验同时跑,不知道实验的变量相互干扰

3. 不确定如何有效评估实验,提升多少算有效?

4. 实验结果看起来有效果,上线后却效果不明显

5. 实验结果看起来有效果,但不知道为何,无法归因出原因

我们最可怕的不是不知道要开展 AB 实验,而是明知道要开展,却不知道如何科学开展或开展后面对数据结果一脸茫然。



如何科学开展实验呢 

首先,实验的过程可以简单分为三步:

. 实验设计 - 包括实验的想法,背景,假设,方案,指标等

. 实验上线 - 包括实验 AB 功能,数据采集,测试和上线

. 实验评估 - 包括数据获取,对比分析,转化结果显著度,实验结果归因,结论,建议和计划

具体过程相信大家不会陌生,所以不会逐个介绍,下面我们重点聊聊整个过程可能常遇到的问题和经验教训,这也是我本次想分享的核心。



看似简单的实验设计,更需要重视

1、实验想法拿数据做支持

. 记住不要光拍脑袋不分析数据,这是提高实验成功率的有效途径,否则你将会承担更高的实验风险,要么实验没有效果,要么实验效果下滑,这些都是浪费资源的做法

. 公司不会有那么多时间和资源投入到一个又一个失败的实验方案中,因此想法很重要,但更重要的是参考、分析,为你的实验想法提供数据依据,拿数据说话

. 真实的情况是,我们完全可以拿数据否掉很多不靠谱的想法

. 由于本次分享的内容侧重点,这块内容以后的机会再分享

2、实验目标说清楚,写下来

. 清晰的实验目标能够让方案聚焦,也避免评估结果的相互扯皮

. 如果团队有人想要收入,有人想要留存,这往往打架的实验目标会造成后续的一系列麻烦

经历:

我们曾遇到过一个实验对于收入的效果非常显著,但却损害了用户体验,导致用户认为应用收费性质过强而流失,但团队一致认为当前收入最重要,且通过数据验证了流失的用户均是较为低质的活跃用户,对长期留存来看并无意义,只是短期留存不好,DAU 会下滑。

但团队中有人则认为前期的活跃用户更重要,不想流失用户和 DAU 下滑,这个就团队在前期没有确定一个一致的目标造成,最后的结果则是非常不欢,方案也没有上线,非常打击团队的信心。

我们不要总期待鱼和熊掌兼得,那是可遇不可求的,我们也正是一直在方案的利弊中,学会权衡并决策前行,这才是可贵的成长和经验,我们总要学会抛弃芝麻捡西瓜,把目标定下来,会更利于我们的决策。

3、实验方案设计

. 清楚了解自己的实验目标,设定测试中想要测试的变量

. 尽量避免要评估的方案存在多变量的情况,控制唯一变量,有利于得到更多实验信息

. 分组设计会是另一个重点,我们放在后面来讲

经历:

我们曾犯过这类错误,上线一个新的付费页面,但我们实验设计前期没有想清楚可以评估和实验的变量,导致我们只控制了展不展示该页面,但该付费页面我们换了新商品,更换了 SKU 组合,更换了商品的折扣属性,页面也放置在用户完成关键动作后出现。

不难想象,我们最终只得到了一个大而全的策略结果,而不知道页面里面的变化能起到的关键作用,因此我们浪费了一次机会,丢失了本可以获取的实验信息。

这个过程就好比如下,同时修改了颜色和文案那样,我们无法知道颜色和文案分别的影响。

尽量不要做出这样的对比,在实验前想清楚,再想清楚,把你要评估的变量梳理清楚,这样再把变量拆开。

如下:

实验设计方案参考如下模板

关于数据采集这块我就不做分享了,不是本次的重点,后续有机会我们再拿来分享。



AB 实验工具

笔者使用过多个 AB 工具,包括自研 AB 系统,Firebase 等第三方支持 AB  的工具,我总结了常见 AB 工具的几个特性,供大家今后需要的时候参考。

当我们创建一个 AB Test 时,需要有:

• 用户圈选:一般要求系统能够对目标实验群体做圈选,满足的用户进入 AB Test,建议支持系统已有的用户属性,行为数据,用户标签等作为可选择维度,第三方工具则要求相关数据上报,需做好前期的实验设计和数据采集工作

. 实验灰度:假如你的实验不想影响所有用户,那么这个正是你所需要的,可以实现逐步放量,相对完善的 AB 工具均有此类选项,如 Firebase

. 配置项:一般指可以由后端自定义值的【远程配置】,例如:是否展示免费试用商品,就是一个【远程配置】

. 实验分组:任意增加多个分组,并为各组选择配置项,配置项的值,以及该组的样本比例

. 实验分组标记:每个创建的实验都建议为每个实验创建一个 Track Tag,将分组名称作为值,如 Test1_Control,Test1_VarB,Test1_VarC,然后作为一个用户的标签标记上,同时要避免标签数据被覆盖导致历史实验数据丢失

如果大家是做出海的 App,Firebase 是我优先推荐的,它是谷歌的产品,而且免费,但唯一不好是对国内支持不好,所以可以根据实验群体和场景选择哦。

当然最灵活的还是自研 AB 系统,但是这个需要一个较有经验的增长产品经理或增长数据分析师来参与比较好系统的设计和数据采集,这样才能较好确保系统的可用,否则仍会出现很多坑,下面我来讲一下我们团队在实验分组遇到过的问题。



实验分组

1、按照用户 ID 等属性计算随机值

我们团队一开始通过用户 ID 来实现简单的随机分组,这个方式在我们跑多组实验的时候遇到了问题。

按用户 ID 属性计算分组值存在的潜在问题如下:

假如一个用户 U3,基于该用户 ID 通过某种随机算法计算得到 59,按照随机算法被分配到 50%~100% 这个区间,此时如果 Test1 区分 AB 两组,各 50%,那么用户 U3 应该会被分配到 Test1 的 B 组;此时如果又有 Test2 区分 AB 两组,各 50%,那么该用户仍会被分配到 Test2 的 B 组。

最后当我们要对 Test1 的 A 组和 B 组做对比时,假设 Test2 也会或多或少影响 Test1 的目标转化,那么就会多了一个 Test2 的干扰因素,从而两个实验的变量会相互干扰结果,无法评估某个 Test 变量的贡献,如下图所示:

因此这种情况下你只能同时跑一组实验。 

2、按照用户 ID 等属性和实验 ID 计算随机值

后来,我们采用另外一种分组方案,按照用户 ID 和实验 ID 共同决定随机值,这样起到在每个实验中,两组的用户也分别均匀分布在其他实验的各组值中,如下图所示原理,理论上两个实验均设置两组各 50%,则样本预计将平衡贴近 25%。

理论上,Test1 和 Test2 就相互不干扰了,因为在分组足够均衡的情况下,Test1 AB 各组受其他实验的影响也被均衡了,可以近视忽略不同变量相互之间的影响。

3、另外一种分组方案探索

我们团队还尝试过另外一种方案,这种方式就是把用户按照一个个规定的桶,将用户随机分配好,然后为实验具体组选择某个(几个)桶的用户,会比较强隔离每个实验,互不干扰,相对来说比较方便,但却需要有专人管理和把控实验资源的配置,且样本量要足够大,否则一旦筛选了条件导致样本量不够多,则会面临分组不够用的问题。

我身边也有朋友在这么做,这只是分享给大家参考,大家可以结合自己的实际情况来决定 。

如果大家选择一些 AB 工具则可以不用太担心,人家已经实现了合理的分组,按照说明设置就好了,但在自己实现分组的时候则需要特别留意这块了。



实验评估

这里我们关注一个重点,如何评估实验结果是否有效,或者说如何评估提升多少才算有效?

关于如何选取评估指标,这个需要大家结合实际业务场景来确定,这个就不介绍了(注意,我们往往不会评估单一指标)。

对于出海来说,尤其是工具类产品,最不陌生的就是免费试用了,这个苹果和谷歌为我们提供了很成熟的产品支持

我就拿这个举例子,也是我们团队亲身经历过的项目。

先做个简单假设:上线 7 天免费试用,能够对收入有提升 10%,提高用户付费转化率提高 10%。

核心评估指标:

. 用户付费转化率(7 天内,0 金额不计算)

. ARPU(7 天内)

实验分组:

A 控制组,默认不曝光

B 实验组,曝光 7 天免费试用,显示免费试用字样

参考下面数据例子, 

我们可以看到示例中:

整个实验周期中,A 组有 12100 个样本参与,B 组有 12200 个样本参与;

A 组的成功付费转化率为 1.65%,B 组的成功付费转化率为 1.97%(为了简单演示,没有给出置信区间估计) 。

如果单靠看转化率的变化,我们可以看到 B 组有些效果,但提升是否真的有显著效果呢?

这就要求我们引入统计显著的概念了,先来看示例中我们计算的结果是 95% 显著,这个就能极大给我们信心说结果是显著的。 

当转化率结果显著,这个意味着实验有胜出组了,然后看 ARPU 表现,即可大概率确认实验的效果。

这里只举一个指标评估做为例子,实际评估还需要结合实际业务来看,包括评估方案的正向反向效果。 

一个小技巧:当我们的运营团队不知道如何分析结果的归因时,采用转化前后的用户行为做差异分析,这样就能大概率做到对结果的归因分析了,关于归因仍为一个大专题,不在这里做详述。



统计是否显著概念

如果有朋友学过统计学或者接触过类似的概念,相信不会陌生,这里只做下概念普及,为了通俗易懂,有些描述可能也不是特别的科学严谨。

统计推断的概念需要有一个【原假设】,这个【原假设】我们一般假设实验的方案不如老方案效果好,然后想办法推翻,以此来坚信我们的实验是有效果。

例如这个效果指付费转化率,那么就是说,实验的 B 组的成功概率(用 PB 表示)不如实验 A 组的成功概率(用 PA 表示)高,即 PB<= PA。

有了【原假设】,接下来只需要找证据推翻上述【原假设】就可以了。

前面实验中 PB=1.97%,而 PA=1.65%,PB>PA,这个时候可以推翻原假设吗?

不能确定,因此需要引入统计显著的概念,一般显著度达到 95% 以上,就可以有足够的信心推翻原假设。

这个 95% 你可以简单理解为 PB>PA 发生的概率超过 95%,这样我们的信心就很足了。

关于显著度的计算这里不深入展开,只是提供大家一个判断依据,对效果的评估要加上这个会比较科学,这样能知道方案上线后有效果的把握程度。

注意:发生概率高,不代表一定会发生,所以要做好上线后随时准备面临结果不如意的心态。



别忘了细分实验结果

在我们多次跑实验的经验,尤其是对于出海应用,我们面临了很多的国家市场,来自全球各地人付费文化和行为模式是存在差异的,因此我们前期实验选择的群体可能就包含了不同消费特性的人群,因此无论在总体结果是否显著的情况下,我们都应该做更多维度的细分。

这样我们能有效发现那些响应不足或响应后效果差的地区,对策略做出及时的调整。



巧妙利用 AABB 分组

这个是我最后想补充的内容。

想必大家都会遇到一些波动特别大的指标,类似一些收入指标,那实验出现随机的结果是很可能发生的,这个时候 AABB 分组策略能给我们提供一些信息。

假如我们实验只是简单的分为两组,实际上我们还能够将 A 组划分成 A1、A2,将 B 组划分成 B1、B2 组。

通过对比组间,如 A 组和 B 组的结果来衡量实验效果。

还能通过对比 A1 和 A2,或对比 B1 和 B2 来确认组内的数据是否稳定,如果组内数据差异过大,而组间差异也表现差异很明显的时候,这个时候就要小心我们前面提到的随机发生的结果。

因此 AABB 分组还够给我们提供更多的实验信息,大家可以去尝试一下。

咨询
官方微信群
官方客服

扫码添加,立即咨询

加群
官方微信群
官方微信群

扫码添加,拉你进群

更多
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯

回顶部