广州总部电话:020-85564311
广州总部电话:020-85564311

广州网站建设-小程序商城开发-广州小程序开发-企业微信开发公司-网站建设高端品牌-优网科技

20年
互联网应用服务商
请输入搜索关键词
知识库 知识库

优网知识库

探索行业前沿,共享知识宝库

什么是 A/B 测试,最少需要多少用户?
发布日期:2024-12-11 11:24:37 浏览次数: 1062 来源:体验进阶

原文引自 NNGroup 的文章《A/B Testing 101》,本译文并非完整全文,内容适量删减调整。

01
什么是 A/B 测试
A/B 测试是一种定量研究方法。规定一定的成功指标后, A/B 测试可以利用用户的真实行为数据来评判两种或多种设计方案中的哪一种表现最佳。

在一个常见的 A/B 测试中,设计师对于同一个功能模块创造俩个(或俩个以上的)变体(Design variation)。如下图案例中,网页右侧的 CTA 按钮,一个变体为红色色块的按钮,另一个变体为白色线性按钮。红色色块按钮,即最初始的方案,我们称为对照组。白色线性按钮,即新设计出来的变体,我们称为实验组

理想情况下,对照组和实验组有且只有一个设计上的差异,通过控制变量获得更准确的测试结果。
在 A/B 测试中,用户流量被自动分成两组。每个用户只能看到一种设计变体,对照组的用户看不到实验组的界面,反之亦然。根据方案的危险系数&获利可能性,每个分组的流量是不固定的。两组流量的比例可以是 5%-95%,也可以是 50%-50%。(在实验过程中,如果有阶段性的数据结果,可以适当调整比例)
流量进入不同分组后,设计师需要收集不同设计方案的数据,看看在之前预设的各项数据指标下,哪个分组的表现更好。
理论上,不管是原来初始的对照组,还是后面新设计的实验组,数据表现更好的分组将会成为产品新设计。但如果测试结果不确定,还是建议保留初始设计,同时再思考新的设计方案,以追求更好的结果表现。

02

为什么要 A/B 测试

A/B 测试是一个工具,它可以帮助设计师利用数据来驱动设计决策,从而做出最适合业务目标&用户使用习惯的设计。
这个研究手段还可以利用数据论证设计方案的可行性,毕竟没有什么能比数据更容易说服利益相关者(你的老板/同事/业务方…)。
A/B 测试也是持续改进设计的有效手段,它可以帮助设计师在整体不大改的前提下,一个个细节来完善产品。


03

常见案例

A/B 测试的整体目的是追求是更好的货币表现,比如哪个设计方案带来更多收入,或者是哪个变体减少了成本。

在 A/B 测试开始前,设计师需要设置非常明确的指标,方便后期确认哪个设计方案在实验中表现更佳。常见的 A/B 测试指标包括转化率 CVR (Conversion rate)、点击率 CTR (Click-through rate)、跳出率(Bounce rate)、留存率(Retention rate)和单个用户收入(Revenue per user)。
某些行业和产品的 A/B 测试 ROI 会比其他行业更高,比如电子商务(e.g., Amazon)、娱乐产品(e.g., Netflix, Spotify)、社交媒体(e.g., Facebook, Instagram, TikTok)、SaaS(e.g., Salesforce, Office365)、在线出版(e.g., The New York Times)、电子邮件营销等等。
在一个产品内,常进行 A/B 测试的模块也比较固定,比如 CTA 按钮、标题、页面 Layout、网站文案、结算流程、表格填写流程 ...


04

4 个步骤高效设置 A/B 测试

为了得到更可靠、更有意义的测试结果,可以根据以下 4 个步骤来进行 A/B 测试:


  1. 先设定一个假设

  2. 在开始 A/B 测试前,设计师应该有一个明确的假设,修改哪些元素变体会带来数据影响。这个明确假设需要设计师对自己的业务模块非常熟悉,做过足够的用户调研,能够有一定的商业思考和 insights。根据前期定性研究做出来的假设才不是无源之水,A/B 测试的结果才能更有意义。
    比如在一个电商网站的活动落地页中,设计师通过定性研究发现很多用户都忽略了写着 “Purchase” 文案的 CTA 按钮。这时 A/B 测试假设应该是:通过修改设计元素,可以提高 CTA 按钮的转化率,从而达到提高整体销售额的结果。

  3. 确认需要修改的设计元素

  4. 一旦有了一个强有力的假设,设计师需要决定修改哪一个设计元素可以更好地实施测试(一般来说 A/B 测试有且仅有一处不一致的设计元素)。

    比如在定性研究中,设计师发现用户注意到了 CTA 按钮,但并不是很明确这个按钮的意思是什么。按钮的文案可以从“Purchase”改成“BUY NOW”,用 A/B 测试来看看用户的反应。


  5. 明确定义衡量指标

  6. 有了不同的设计方案后,设计师需要清晰定义 A/B 测试是否成功的衡量指标。指标通常有两种:主要指标(Primary metrics)和护栏指标(Guardrail metrics)。

    主要指标是设计方案中最直接影响的数据指标。比如按钮文案修改后,按钮的点击率(Click rate) 就是最直接的数据指标。

    护栏指标是设计方案中通过主要指标间接影响的业务关键指标。比如按钮文案修改会影响按钮的点击率,从而影响购买率(Purchase rate)和平均销售额(Average sale amount per purchase)。

    护栏指标 Guardrail metrics 是一个通常用于项目管理、产品开发和业务分析中的术语。护栏指标像是公路上的护栏,当业务或项目的进展可能偏离目标时,这些指标可以帮助及时识别和纠正方向。

  7. 确定测试所需时间

  8. 完成上面 3 步后,设计师还需要决定这个 A/B 测试跑多长时间。测试时长取决于测试所需采集的样本量。而样本量的具体数量由三个参数决定:

  • 基线转化率 (Baseline outcome-metric value):实验前的现有转化率或者关键指标。比如文案为“Purchase”的情况下,CTA 按钮的点击率是 3%(每 1000 个人进入活动页,有 30 个人点击这个 CTA 按钮)

  • 最小可检测效果 (Minimum detectable effect):实验组和对照组检测到的最小差异,它代表关键指标可以被统计到显著的最小变化。比如点击率为 3% 的基准线起码需要 20% 的最小差异,即实验组有 3% +/- 0.6% 的变化可被检测出来(按钮文案从“Purchase”变为“BUY NOW”之后,每 1000 个人进入活动页,至少 36 个人点击了 CTA 按钮)

  • 置信水平 (Statistical-significance threshold):测试结果可靠的状态。这个值通常为 95% (留 5% 的误差率)。

三个参数决定下来后,设计师可以使用 A/B 测试样本量计算器(https://www.optimizely.com/sample-size-calculator)来算自己所需要的样本总量。即使实验招募了足够的用户数量,还是强烈推荐至少运行 1-2 周 A/B 实验,加大样本量来应对潜在波动对实验的影响。

    ?

    举个例子:
    我们电商网站里的当前表格填写率为 50%,设计师希望通过增加推荐项来提高填写率。用 A/B 测试验证自己的设计想法前,设计师会定义以下三个指标:
    • 基线转化率:50%
    • 最小可检测效果(MDE):我们想要新的推荐功能能够提高转化率到 70%。因此,MDE = 20%(即 70% - 50%)
    • 置信水平:设置我们的置信水平为 95%

    为了确保能检测出 20% 的差异,那 A/B 测试中,对照组和实验组中的每一组都至少需要进入 190 名访问用户。
    如果是 50-50 分流的 A/B 测试,即至少需要 380 名用户;如果是 10-90 分流的 A/B 测试,即至少需要 1900 名用户。
    如果电商网站一天有 500 名用户,50-50 分流的测试至少要跑 1 天,10-90 分流的测试至少要跑 4 天。


真实设计工作中,上述 4 个步骤作为理论模型确实存在,但应用方法不完全一致。

  • 以我最近做的地址优化项目为例,在前期定性研究结束后,跳过步骤 1,步骤 2 的新设计方案已经出来(默认认为新设计方案会提高转化率)。

  • 真实项目中需要观察的数据比较多比较复杂,无法简单地分为主要指标和护栏指标。其中有些数据无法完全放到 A/B  测试里,而是需要靠单独的埋点看板。

  • 实验具体所需要的人数和时长由三方A/B 测试平台来监控,不需要设计师自发计算。且根据项目不同,研发同学也会参与讨论 A/B 实验所需时长。


⚠️ 特别值得注意的是,A/B 测试并不是单纯的设计师/产品经理参与的工作,测试质量和测试结果都与前后端研发同学的代码息息相关。接 A/B 实验位置,前后端数据接口的对齐,抓取参数的范围,这些都可能影响到 A/B 测试的结果,这需要设计师/产品经理与研发同学确认对齐&仔细验收。


05

A/B 测试的限制

跟所有用户研究的方法一样,A/B 测试也有自己的局限性。并不是所有产品和所有用户界面都适合 A/B 测试,以下的几个场景就不适合使用 A/B 测试:
  • 流量小的页面不适合。一般来说,为了看出两个设计方案之间的显著差异,一个 A/B 测试至少需要数千名用户。如果页面流量太小,进行测试也没有结果。

  • 多样更改同时进行不适合。如果要一次测试多个设计更改,比如商详页的轮播图片变成视频,同时CTA 按钮从”Buy now“ 变成 ”Add to cart“,那应该使用多变量测试 MVT(Multivariate Testing),而不是 A/B 测试。

  • 想要了解用户行为变化原因的不适合。A/B 测试通过数据为设计师提供用户行为变化的 insights,但它无法解释用户变化的背后原因。所以设计师想要知道真实原因,A/B 测试可以跟定性研究配合使用。


06

A/B 测试的常见错误

如果不正确使用 A/B 测试,有可能会得到一些误导性的结果,从而影响产品的最终效果。在进行 A/B 测试的过程中,应该要尽量避免以下错误行为:
  • 没有提前设定强有力的假设。据统计,每 7 个 A/B 测试中,只有一个测试是成功的。如果在测试前没有设定一个认真研究&以真实数据为基础的强有力假设,这个比例会更低。

  • 缺乏明确的目标。如果在 A/B 测试开始前,没有一个明确定义的目标和预期的收益,设计师很难跟团队沟通测试的必要性,也很难为不同的设计方案提供指导标准。

  • 过于专注单一指标。通常来说,A/B 测试的目标是增加或降低某个指标。但如果测试过程中只关注一个指标,设计师可能错过哪个设计方案更合理的重要信息。比如设计师只关注当前活动页的 CTA 按钮转化率(主要指标),而忽视了整个流程的留存率(护栏指标),可能会导致负面影响。

  • 过早停止测试。过早停止测试会导致数据量的缺乏,从而导致不可信的测试结果。

  • 忽略定性研究和业务背景。A/B 测试可能有测量误差或假阳性结果,所以 A/B 测试必须跟用户研究和专业业务背景放在一起观测,才能对产品有积极影响。


07

A/B 测试工具的选择

市面上的 A/B 测试平台有很多,根据需求不同,适合的工具也不同。整体来说可以按以下几个维度来筛选工具:
  • 预算:A/B 测试工具的价格范围从免费到每月数千美元不等

  • 测试复杂性:不同平台允许的实验复杂程度不一样,有些仅允许颜色/文本的测试,有些允许布局的更改,有些允许多变量测试和拆分 URL 测试

  • 工具易用性:重新学习新工具的时间成本 & 项目时间的紧迫性

  • 技术要求:平台工具的集成程度,平台与代码技术基础设施的联通可能性







优网科技,优秀企业首选的互联网供应服务商

优网科技秉承"专业团队、品质服务" 的经营理念,诚信务实的服务了近万家客户,成为众多世界500强、集团和上市公司的长期合作伙伴!

优网科技成立于2001年,擅长网站建设、网站与各类业务系统深度整合,致力于提供完善的企业互联网解决方案。优网科技提供PC端网站建设(品牌展示型、官方门户型、营销商务型、电子商务型、信息门户型、DIY体验、720全景展厅及3D虚拟仿真)、移动端应用(手机站APP开发)、微信定制开发(微信官网、微信商城、企业微信)、微信小程序定制开发等一系列互联网应用服务。


我要投稿

姓名

文章链接

提交即表示你已阅读并同意《个人信息保护声明》

专属顾问 专属顾问
扫码咨询您的优网专属顾问!
专属顾问
马上咨询
扫一扫马上咨询
扫一扫马上咨询

扫一扫马上咨询