怎么对AB测试的结果做分析
本文目录
ab型人格测试分析
ab型人格测试分析
AB型人格测试是一种常见的性格测试,它能够揭示人们的性格特质和个性倾向。AB型人格的人通常被认为具有复杂的性格,既有A型人格的冲动和着急,也有B型人格的冷静和慢性子。本文将从多个角度分析AB型人格测试,并展示一些有用的结论和建议。
1.什么是AB型人格?
AB型人格指的是一种既有A型人格的特质,又有B型人格的特质的人。A型人格的特点是热情、积极、竞争心强、易冲动、容易压力大,而B型人格的特点是冷静、沉着、不论事情如何都不会特别紧张,但气质比较软和散漫,也不太有冲劲。AB型人格则是这两种性格特质的结合,能够兼具A和B型人格的优点。AB型人格测试通过对被试者的性格特点的测试,得出一个人是否为AB型人格。
2. AB型人格测试有哪些方面?
AB型人格测试可以从多个方面进行测试,以反映人们的性格特质、行为模式、情感状态等。以下是一些常见的测试方面:
(1)性格类型:测试结果会告诉你,你的性格类型是什么,包括是否为AB型人格、A型人格、B型人格还是其他类型的人格。
(2)做事方式:测试会测试你的工作习惯、思维方式、任务执行效率等方面,以反映你在工作学习等方面的表现。
(3)情感状态:测试会测试你的情绪管理能力、压力抗衡能力等方面,以反映你的情感状态。
3. AB型人格测试的意义
AB型人格测试的意义在于,通过对测试结果的分析,可以更深入地了解一个人的个性特征和行为模式。测试结果可以帮助人们更好地了解自己,提高自我认知水平,从而更好地发掘自己的优势和缺陷,增强自身实力。此外,测试结果还可以为人们的择业、职业发展、学习规划提供借鉴和建议。
4.如何应对AB型人格的缺点?
虽然AB型人格具有A型人格和B型人格的优点,但也会有一些缺点。比如,AB型人格容易着急、冲动,也容易失去耐心和兴致,导致做事不够稳定。因此,要避免AB型人格的缺点,需要有针对性地进行一些自我修炼和自我调节。例如:保持一颗平静的心态,不要过于焦虑和紧张;加强自我控制,避免情绪波动过大;定时休息,避免疲劳和压力过大等。
AB测试介绍与案例分析
AB测试介绍:
概念:AB测试是为web或APP界面、流程等制作两个或多个版本,在同一时间维度,分别让成分相同的访客群随机访问这些版本,收集各群组的用户体验数据和业务数据,最后分析评估出最优版本并正式采用。简而言之,AB测试是通过设计对照实验来对比不同版本的效果。
关键点:
对照实验:需要有两个或多个版本的对照。随机分配:访客群需随机访问不同版本。数据收集与分析:收集用户体验和业务数据,并进行评估分析。AB测试案例分析:
明确问题:案例中,目标是对web新旧页面的AB测试结果进行分析,判断两者在用户转化情况上是否有显著区别。
数据准备:
导入数据:使用分析包导入数据文件,并查看数据字段及其含义。数据清洗:处理异常值和重复值。假设检验:
确定假设:设定零假设和备选假设。检验方向:根据备选假设确定检验方向。抽样分布类型:根据数据特点确定抽样分布类型。检验类型和统计量:选择合适的检验类型和计算检验统计量。显著性水平:设定显著性水平,用于判断结果是否显著。结果分析:
计算统计量:使用公式或Python函数计算检验统计量,并与显著性水平对应的分位数进行比较。判断结果:根据统计量是否落入拒绝域来判断是否拒绝零假设。效应量分析:计算效应量来衡量差异的大小。结论:
转化率对比:新页面平均转化率略高于旧页面。统计显著性:在显著性水平5%下,新页面转化率高于旧页面的结论是统计显著的。效应量:尽管有统计显著差异,但效应量很小,说明新旧页面转化率差异不大。详解完整的AB测试流程
本文详细剖析了完整的AB测试流程,包括关键步骤及其作用。
首先,AB测试流程涉及以下几个步骤:
选择实验指标:确定核心指标,如点击转化率,同时设定观测和反向指标以全面评估效果。
构建实验假设:针对核心指标设定零假设(无影响)和备择假设(有提升),明确实验目标。
实验单位选择:用户、设备或行为粒度,其中用户粒度最推荐,以确保数据置信。
设定最小提升预期:考虑成本效益,设定实验成功的基本标准。
计算最小样本量:确保实验功效,避免无效流量投入和错误结论。
流量分割策略:互斥或正交实验设计,合理分配流量。
确定实验时长:考虑样本量、用户活跃度和可能的周期性变化。
数据统计:采用合适的检验方法(T或Z检验),关注diff、p值和置信区间。
得出评估实验结果的显著性,考虑是否推广,以及MDE最小检测效应。
理解这些步骤有助于确保AB测试的有效性和准确性。若遇到不显著结果,可通过调整策略或增加样本量来优化实验。希望这些指导对您的实践有所帮助,欢迎讨论。
关于AA测试和AB测试的一些思考
老规矩,由于对知乎平台的怀疑,我一定多写一份写在我的博客,作为防删备份:
起因
一般的AA/AB测试都怎么做呢?正常来说,取一部分用户,然后把用户分成2组(也可以是多组,本文中我们只讨论最典型的2组的情况),在一段时间的运行以后,比较其结果。
AB测试自不必说,主要测试新的算法在指定的监测指标上又没有达到预期,AA测试则一般用来测试AB测试和用户的稳定性,也可以作为AB测试的一个预演和对AB测试工具的测试。有了AA测试,可以对AB测试的结果更为自信,当然,也有很多的文章讨论AA测试究竟是不是必要的,例如这一篇:A/A Testing: A Waste of Time or Useful Best Practice?
就我的实践而言,AB测试中的确容易出现两组天然存在指标差异的情况,尤其是样本或者用户少的时候更容易发生,比如有的时候你就是不幸多分了几个Heavy User到某一个组去,导致你怎么测试都得不到正确的结果……当然,在实践中,这个问题造成的误差并不大,一般CTR误差都在0.1%这个量级,而且误差可以随着时间收敛,基本算法带来的提升都应该能覆盖这个误差。
AB测试中出现两组天然存在指标差异带来的更大问题是,AA测试通不过,有的时候换个分组的Salt Key结果就不一样了。造成这个问题的原因是,随着采样数据的上升,AA测试中两组的方差都逐渐收敛,这个时候两组之间的天然差异会被“固化”,这个时候AA测试就失败了。
这个问题困扰我们挺久,但是到我们之前的AA测试只有Pass/Fail两个结果,所以我们考虑不妨把AA测试变成标定AB测试的工具,故事就从这里开始了。
改善
假设在一次试验(或者试验的某个片段中)收集到如下数据:
我们假定点击这个事件是服从Bernoulli分布的,也就是每次展示等价于抛一枚正反面概率固定为p的硬币(这里的假设是错误的,爆款新闻,突发事件,甚至只是单纯的周末或者深夜等等特殊时间都会影响点击率)。那我们做了N次这样的试验,所以 [公式],C指的就是点击次数这个随机变量,p是二项分布试验的概率,那么C/N自然就是实际观测到的点击(转换)率CTR了,之后我们用符号x表示这个变量。根据中心极限定理,当n特别大的时候,C是服从正态分布的(注意了,N一定要特别大),表达为 [公式]。我们稍作转换 [公式]。我们用表中的数据代入,我们就可以得到对照组和测试组的点击率分布。记作: [公式]和 [公式]。其中, [公式], [公式]。这里我们遇到第二个有点脏的点:用观测的CTR取代 [公式],好在CTR是 [公式]的无偏估计,N又特别大,忍了。
直观的画出来,大概长这个样子:
我觉得两个随机变量还是太多,由于我们关注的并不是CTR本身,而是CTR的差异。不妨设[公式],我们可以根据正态分布求和公式轻易得到 [公式]。
到此为止,我们所有的理论准备完成。
实战AA测试
AA测试,主要是估计一个提升的下确界,也就是我们最少要提升多少CTR,这个CTR甚至有可能是负数。举个例子,当试验组就是比对照组CTR要小一些的时候,哪怕在之后的测试中两者持平,我也可以判定对照组胜利,这和于老爷子出门没捡着钱就算丢的理论有异曲同工之妙。
在求这个数值之前,我们首先要确定一个单侧的置信度,比如0.05,或者0.01,根据你的容忍程度决定。随后我们可以根据这个数值,计算我们最少应该提升的CTR,如果形象的画个示意图,差不多是这个样子:
简单的写个代码实现一下:
AB测试
我们用AA测试得到了一个最少提升的参数,不妨记这个最小提升为ϵepsilonϵ。
那我们AB测试究竟过了没有(过了的意思是,测试组的算法对于对照组来说有提升),或者说,我们能以怎样的置信度判断AB测试过了。也就是说我们要求: [公式]。由于 [公式],所以也就是判断 [公式]。
根据公式很容易得到:
[公式]
简单的写个代码实现一下:
展望
其实我们不仅仅可以使用正态分布,我们还可以借鉴Thompson Sampling中的思路,利用Beta分布对CTR进行建模,而Bandit本身,其实可以看作一个实时的,特殊的AB Testing。详细可以参见这篇:
但是我还没搞出来,因为还没有得到CTR误差的解析解。而Thompson Sampling是利用一种类似蒙特卡洛的方式来解决这个问题的。
等我下次无聊的时候,或许会尝试去计算一下吧。
写得比较急,要出门了,请各位帮忙纠错了,错别字也行。
感谢@萝卜他姓胡的勘误,norm的第二个参数的输入是标准差不是方差。











