原文引自 NNGroup 的文章《A/B Testing 101》,本译文并非完整全文,内容适量删减调整。
A/B 测试是一种定量研究方法。规定一定的成功指标后, A/B 测试可以利用用户的真实行为数据来评判两种或多种设计方案中的哪一种表现最佳。
在一个常见的 A/B 测试中,设计师对于同一个功能模块创造俩个(或俩个以上的)变体(Design variation)。如下图案例中,网页右侧的 CTA 按钮,一个变体为红色色块的按钮,另一个变体为白色线性按钮。红色色块按钮,即最初始的方案,我们称为对照组。白色线性按钮,即新设计出来的变体,我们称为实验组。
02
为什么要 A/B 测试
常见案例
A/B 测试的整体目的是追求是更好的货币表现,比如哪个设计方案带来更多收入,或者是哪个变体减少了成本。
04
4 个步骤高效设置 A/B 测试
先设定一个假设
确认需要修改的设计元素
明确定义衡量指标
确定测试所需时间
一旦有了一个强有力的假设,设计师需要决定修改哪一个设计元素可以更好地实施测试(一般来说 A/B 测试有且仅有一处不一致的设计元素)。
比如在定性研究中,设计师发现用户注意到了 CTA 按钮,但并不是很明确这个按钮的意思是什么。按钮的文案可以从“Purchase”改成“BUY NOW”,用 A/B 测试来看看用户的反应。
有了不同的设计方案后,设计师需要清晰定义 A/B 测试是否成功的衡量指标。指标通常有两种:主要指标(Primary metrics)和护栏指标(Guardrail metrics)。
主要指标是设计方案中最直接影响的数据指标。比如按钮文案修改后,按钮的点击率(Click rate) 就是最直接的数据指标。
护栏指标是设计方案中通过主要指标间接影响的业务关键指标。比如按钮文案修改会影响按钮的点击率,从而影响购买率(Purchase rate)和平均销售额(Average sale amount per purchase)。
护栏指标 Guardrail metrics 是一个通常用于项目管理、产品开发和业务分析中的术语。护栏指标像是公路上的护栏,当业务或项目的进展可能偏离目标时,这些指标可以帮助及时识别和纠正方向。
完成上面 3 步后,设计师还需要决定这个 A/B 测试跑多长时间。测试时长取决于测试所需采集的样本量。而样本量的具体数量由三个参数决定:
基线转化率 (Baseline outcome-metric value):实验前的现有转化率或者关键指标。比如文案为“Purchase”的情况下,CTA 按钮的点击率是 3%(每 1000 个人进入活动页,有 30 个人点击这个 CTA 按钮)
最小可检测效果 (Minimum detectable effect):实验组和对照组检测到的最小差异,它代表关键指标可以被统计到显著的最小变化。比如点击率为 3% 的基准线起码需要 20% 的最小差异,即实验组有 3% +/- 0.6% 的变化可被检测出来(按钮文案从“Purchase”变为“BUY NOW”之后,每 1000 个人进入活动页,至少 36 个人点击了 CTA 按钮)
置信水平 (Statistical-significance threshold):测试结果可靠的状态。这个值通常为 95% (留 5% 的误差率)。
基线转化率:50% 最小可检测效果(MDE):我们想要新的推荐功能能够提高转化率到 70%。因此,MDE = 20%(即 70% - 50%) 置信水平:设置我们的置信水平为 95%
?
真实设计工作中,上述 4 个步骤作为理论模型确实存在,但应用方法不完全一致。
以我最近做的地址优化项目为例,在前期定性研究结束后,跳过步骤 1,步骤 2 的新设计方案已经出来(默认认为新设计方案会提高转化率)。
真实项目中需要观察的数据比较多比较复杂,无法简单地分为主要指标和护栏指标。其中有些数据无法完全放到 A/B 测试里,而是需要靠单独的埋点看板。
实验具体所需要的人数和时长由三方A/B 测试平台来监控,不需要设计师自发计算。且根据项目不同,研发同学也会参与讨论 A/B 实验所需时长。
⚠️ 特别值得注意的是,A/B 测试并不是单纯的设计师/产品经理参与的工作,测试质量和测试结果都与前后端研发同学的代码息息相关。接 A/B 实验位置,前后端数据接口的对齐,抓取参数的范围,这些都可能影响到 A/B 测试的结果,这需要设计师/产品经理与研发同学确认对齐&仔细验收。
05
A/B 测试的限制
流量小的页面不适合。一般来说,为了看出两个设计方案之间的显著差异,一个 A/B 测试至少需要数千名用户。如果页面流量太小,进行测试也没有结果。
多样更改同时进行不适合。如果要一次测试多个设计更改,比如商详页的轮播图片变成视频,同时CTA 按钮从”Buy now“ 变成 ”Add to cart“,那应该使用多变量测试 MVT(Multivariate Testing),而不是 A/B 测试。
想要了解用户行为变化原因的不适合。A/B 测试通过数据为设计师提供用户行为变化的 insights,但它无法解释用户变化的背后原因。所以设计师想要知道真实原因,A/B 测试可以跟定性研究配合使用。
06
A/B 测试的常见错误
没有提前设定强有力的假设。据统计,每 7 个 A/B 测试中,只有一个测试是成功的。如果在测试前没有设定一个认真研究&以真实数据为基础的强有力假设,这个比例会更低。
缺乏明确的目标。如果在 A/B 测试开始前,没有一个明确定义的目标和预期的收益,设计师很难跟团队沟通测试的必要性,也很难为不同的设计方案提供指导标准。
过于专注单一指标。通常来说,A/B 测试的目标是增加或降低某个指标。但如果测试过程中只关注一个指标,设计师可能错过哪个设计方案更合理的重要信息。比如设计师只关注当前活动页的 CTA 按钮转化率(主要指标),而忽视了整个流程的留存率(护栏指标),可能会导致负面影响。
过早停止测试。过早停止测试会导致数据量的缺乏,从而导致不可信的测试结果。
忽略定性研究和业务背景。A/B 测试可能有测量误差或假阳性结果,所以 A/B 测试必须跟用户研究和专业业务背景放在一起观测,才能对产品有积极影响。
07
A/B 测试工具的选择
预算:A/B 测试工具的价格范围从免费到每月数千美元不等
测试复杂性:不同平台允许的实验复杂程度不一样,有些仅允许颜色/文本的测试,有些允许布局的更改,有些允许多变量测试和拆分 URL 测试
工具易用性:重新学习新工具的时间成本 & 项目时间的紧迫性
技术要求:平台工具的集成程度,平台与代码技术基础设施的联通可能性
优网科技秉承"专业团队、品质服务" 的经营理念,诚信务实的服务了近万家客户,成为众多世界500强、集团和上市公司的长期合作伙伴!
优网科技成立于2001年,擅长网站建设、网站与各类业务系统深度整合,致力于提供完善的企业互联网解决方案。优网科技提供PC端网站建设(品牌展示型、官方门户型、营销商务型、电子商务型、信息门户型、DIY体验、720全景展厅及3D虚拟仿真)、移动端应用(手机站、APP开发)、微信定制开发(微信官网、微信商城、企业微信)、微信小程序定制开发等一系列互联网应用服务。