那是它们的安排性增进实验,附简易案例数值深

日期:2019-09-16编辑作者:威尼斯在线平台

通常,我们的增长团队会以小组为单位提出想要验证的假设,以及希望通过实验提升的业务指标。

五、案例实操分享

原标题:案例分析:国外运动社交平台 Strava 爆红,这是它们的设计增长实验

本文源于A/B测试 by Google(免费课程)学习总结,共计22小时,本文仅是对课程第一节内容的学习总结,后续的课程中详细论述了学习如何选择和验证你的实验中所使用的指标,如何设计一个完整的A/B测试,如何科学的分析你的实验结果,感兴趣的朋友可以点击连接观看并深入学习,也希望大家可以一同学习并深入交流在实际工作中的A/B测试情况。

题图由作者提供返回搜狐,查看更多

二、A/B 测试度量选择

威尼斯在线平台 ,A/B测试前一定要设计合理的测试度量指标,通过审核核心指标判断不同测试版本的效果如何,如果需要测试首页改变对于用户注册带来的效果,可以使用独立访客点击率作为测试首页改变的度量值。

独立访客点击率=独立访客点击注册按钮数/独立访客登录首页数

实操案例设计:

独立访客注册按钮点击率=独立访客点击注册按钮数/独立访客登录着陆页数

独立访客注册完成率=独立访客注册完成数/独立方可登录着陆页数

以增长为导向的产品设计方法能确保你快速且有针对性地检验假设。你可以从想要检验的假设着手,确定实验想要改善的指标。记住,让设计尽可能简单,不断思考哪些功能和环节对目标指标有直接影响,并优先设计这些部分。没有直接影响的部分可以置后考虑,但注意不要以损伤用户体验的可用性或清晰度为代价(比如:避免设置用户陷阱)。

5.2 实验中需要用到的公式和评估标准

需要获取信息:

对照组原首页一定时间内独立访问用户数:Ncont,点击注册按钮的独立用户数:Xcont,最小显著性:dmin,置信度区间:95%时z=1.68。

观察组新版首页一定时间内独立访问用户数:Nexp,点击注册按钮的独立用户数:Xexp。

计算合并标准误差:

Ppool=(Xcont+Xexp)/(Ncont+Nexp)

SEpool=√ ̄(Ppool*(1-Ppool)*(1/Ncont+1/Nexp))

d=Pexp-Pcont

m=z*SEpool

(d-m,d+m)

通过上诉公式套用,可以计算出d和m值,那么在什么情况下可以判定优化后是否具有实际显著性,全面推广改版呢?

如下图所示,当d>0时,d-m>dim我们说更新具有显著效果

当d<0时,d+m<-dim,我们可以得出结论,实验版本失败。

其他情况要么得出实验不具有统计显著性,要么需要进一步调整优化实验。

  1. 评估实验

5.1 实验设计背景

案例背景概述:wap首页改版,wap首页作为导流落地页,主要功能为引导用户完成注册。满足二项分布

计算最小实验样本:利用上图工具,我们将dmin定为2%,意思是新版本用户转化增加超过2%才有效,置信区间选择95%,经过计算最小实验样本数为3623人。

如果实验成功,假设被验证,那么,我们就会把新功能推广到整个用户群体中。如果实验失败,我们会在产品分析师的帮助下,对数据进行深入挖掘。产品分析师会分析实验结果不如预期的原因,为我们后续改进设计提供有用信息。当然,我们也会回顾最初的研究和可用性测试,希望从定性的角度,获取那些能够帮助我们准确理解定量数据的信息,从而更全面地把控整个项目。

四、统计显著性分析

假设检验或推断是统计学中的一个概念,以量化的方式,确定你的结果发生的概率。

首先我们需要一个零假设或者说基准,也就是对照组和实验组之间的概率没有区别,然后要考虑的是备择假设。要想确保结果具有统计显著性,那么需要计算结果是偶然出现的可能性。要计算这个概率,你需要先假设,如果实验没有效果结果会怎么样,这就是所谓的零假设,记为Ho,我们还需要假设如果实验有效,那结果会是怎样,这称为备择假设,记为HA。

合并标准误差(实验中观测差异是否具有统计显著性)

Xcont,Xexp;Ncont,Nexp;

Pexp=Xcont/Ncont;Pcont=Xcont/Ncont

Ppool=(Xcont+Xexp)/(Ncont+Nexp)

SEpool=√ ̄(Ppool*(1-Ppool)*(1/Ncont+1/Nexp))

d=Pexp-Pcont

m=z*SEpool

H0:d=0,d~N(0,SEpool)

if d-1.96*SEpool>0 or d+1.96*SEpool<0,则可以拒绝零假设,认为差别具有统计显著性

从商业角度来说,2%的点击概率改变就具有实际显著性。

不同的实验观测样本数量,直接影响实验的有效性,那么如何设计科学的A/B测试呢?可以考虑使用下方工具,根据输入数值,自动计算合理的实验组和对照组的观察人数。

在线测算实验人数工具

工具说明

Significance level α:显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,用α表示。显著性是对差异的程度而言的,程度不同说明引起变动的原因也有不同:一类是条件差异,一类是随机差异。它是在进行假设检验时事先确定一个可允许的作为判断界限的小概率标准。

Statistical power 1−β:统计功效(statistical power )是指, 在假设检验中, 拒绝原假设后, 接受正确的替换假设的概率。我们知道,在假设检验中有α错误和β错误。α错误是弃真错误, β错误是取伪错误。取伪错误是指, 原假设为假,样本观测值没有落在拒绝域中,从而接受原假设的概率,及在原假设为假的情况下接受原假设的概率。由此可知, 统计功效等于1-β。

首先要设计实验,鉴于可以控制对照组和实验组的网页浏览量,我们必须要确定,为获取统计显著性的结果,最能获取统计显著性的结果,这称为统计功效。功效与规模呈负相关,你想要探索的改变越小,或者是你想要的结果置信度越高你需要运行的实验规模就越大,这就是对照组和实验组需要更多的网页浏览量,大家可以尝试在计算器中修改数据,观察实验样本数量,如修改最低可观测效果,修改基准转化率,修改统计功效,修改显著性水平。

在A/B测试或多变量测试中,我们都会将实验组(新版本)和对照组(旧版本)进行对比。在正式发布新的用户体验或功能之前进行检验,能让我们将新功能隔离出来测试,在结果与预期有差距时对该功能进一步迭代优化。另外,我们可以选择不同语言(例如英语)进行测试,从而跳过本地化的测试步骤,进一步加快测试进程。

三、二项分布和置信区间

样本数不同,则结果的置信度会收到影响,第一组实验,独立访客点击注册按钮数=100,独立访客登录首页数=1000,这注册改版后的独立访客点击率=100/1000=10%,那么在做一组实验,如果独立访客点击注册按钮数=150,是否异常?可以利用统计学知识进行测算测试结果是否可信。

数据中经常会有特定的一些分布,帮我们了解数据变化规律,如正态分布,T分布,卡方分布等。我们关于首页点击情况符合二项分布。

二项分布就是重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。--【源自百度百科】

二项分布需要满足以下条件:两种结果;实验彼此独立,不相互干扰;事件要遵循同一种分布。

平均概率:p=x/n

检验是否符合正态分布:n*p>5,n(1-p)>5

置信区间宽:m(误差幅度)=z(置信度)*SE(标准差);SE=√ ̄(p(1-p)/n)

μ±1.96标准误之间包含所有平均数的95%,

μ±2.58标准误之间包含所有平均数的99%

  1. 发挥量化数据的杠杆作用

5.3 数值案例分析

经测算我们得出如下数据:

Xcont=974,Ncont=10072,Xexp=1242,Nexp=9986,dmin=2%,置信区间选择95%,则z=1.96

Ppool=(Xcont+Xexp)/(Ncont+Nexp)=(974+1242)/(10072+9986)=0.111

SEpool=√ ̄(Ppool*(1-Ppool)*(1/Ncont+1/Nexp))=√ ̄(0.111*(1-0.111)*(1/10072+1/9986))=0.00445

d=Xexp/Nexp-Xcont/Ncont=1242/9986-974/10072=0.0289

m=z*SEpool=1.96*0.00445=0.0087

最小值d-m=0.0289-0.0087=0.0202,最大值d+m=0.0289+0.0087=0.0376,

因为:d>0,dmin<d-m

所以:实验结果具有统计显著性,同时增长超过2%,具有实际显著性,得出结论,新版首页对于注册有更好的转化效果,应该替代原版首页。

笔者正在深入学习A/B测试后面的课程,也希望大家可以一同学习并深入交流大家在实际工作中的A/B测试情况。

一张图看懂A/B测试

备注:A/B测试的一个例子。我们的假设是,在应用程序加载后马上浮现注册窗口可以提高注册率,特别是通过Facebook。

一、A/B 测试概述

A/B test概念:A/B测试是一种用于在线测试的常规方法,可用于测试新产品或新功能,需要设置两组用户,将其中一组设置为对照组,采用已有产品或功能,另一组采用新版产品或功能,通过对比分析上述用户做出的不同响应数据,确定哪个版本更好。

A/B test 适用场景:通过大范围的用户数据观察,如新功能界面中增加了内容,不同的外观,不同的按钮配色,都可以使用A/B测试,帮助产品持续优化。案例:google曾在用户界面中运行了42不同蓝色阴影,观察用户有什么反响。amazon做过测试,每个页面增加100毫秒延迟,收入会降低1%,google也得出类似结果。

A/B test 局限性:A/B测试不适合做全新体验的效果评估,因为全新的体验存在两个问题,比较基准是什么?数据对比需要多长时间才能看到效果?(面对低频服务-如租房,很难通过A/B测试看出推荐对于人们的行为影响)。

A/B test 练习题(评论区写下你的选项,回复给你正确答案):

1、在以下什么情况下你可以考虑A/B测试?

A:你想要知道你的电商网站是否完整,是否存在用户想要购买但是平台无法提供的商品

B:公司已经有了免费服务,但想要提供有其他功能的高级服务,需要客户升级或付费

C:假设一个网站提供电影推荐服务,通过新的算法对可能的建议进行排序

D:假设你想要改变基础架构的后台,会影响到页面加载速度和用户看到的显示结果

E:一个汽车销售网站,考虑做出改变,想知道改变是否更可能再次访问网站或者向他们的朋友推荐

F:假设一家公司想要更新他们的品牌形象,如主页的logo,改版后对用户行为产生哪些影响

G:假设你想改版移动应用首页,想要调整信息架构,观察对用户行为产生哪些影响

当A/B测试不适用时,可以通过用户操作日志检查或观察来分析,也可以通过随机的试验,进行前瞻性分析。也可以使用焦点小组,面对面沟通,问卷调查,用户评价分析等方法获得定性数据,补充A/B测试的定量测试结果。

实操案例设计:wap首页改版,wap首页作为导流落地页,主要功能为引导用户完成注册。

我们会在实验独立运行一段时间(通常是两周),或者达到数据显著性之后回到实验本身,以小组为单位深入研究数据、分析结果。

增长设计师必须在项目中不断试验、摸索。我们一般会从一些小的设计着手,这样才能快速学习和检验假设。

在Strava,增长团队的目标是扩大这个世界上最活跃的运动员社群。

我们会进行早期用户研究,用定性方法验证我们的假设并收集一些早期的“信号”,这些“信号”能告诉我们目前的项目是否具备潜力驱动增长团队最关心的指标。如果没有,我们会考虑把项目所有权转交给其他团队,或者确保我们之后将工作精力集中在产品最有增长潜力的部分。如此一来,增长团队认为无效的假设,对于有不同商业目标的团队来说依然非常有价值。

备注:用户界面和复制测试旨在增加功能使用频率和对外邀请次数

Strava 是一款专为运动爱好者设计的测速APP,同时也是当下爆红的运动达人社交平台。

Strava 公司总部位于美国旧金山,由 Mark Gainey 和 Michael Horvath 共同创立。截至2017年秋天,Strava 已累计获得7000万美元的投资。

本文作者 Paolo Ertreo(Strava 产品设计师)将结合实际案例,跟大家分享 Strava 是如何通过增长实验,在运动达人圈中逐渐扩大影响力的。

  1. 决定功能是否推广

我们最初做这个改版实验时,就是想要验证这个假设:对于曾经和自己一起锻炼过但没有记录活动数据的小伙伴(也可能是还没加入Strava),Strava 用户有很高的意愿邀请Ta一起来记录。

实验设计完成后,我们就开始在一部分用户中进行了小范围的测试。

我们的假设就像指引方向的北极星,使我们脚踏实地专注于实现KPI,并确保我们的设计开发工作在原定范围内进行。

威尼斯在线平台 1

在某些情况下,达到数据显著性需要几个星期,甚至几个月,比如测试一些较少被用户使用的功能时。此时我们会选择A/B测试而不是多变量的测试,从而将用户的浏览或流量分布限制为双变量分布,这有助于我们加快学习进程。

为了验证这个假设,我们首先推出了一个简化的功能,让用户能通过活动详情表中的本地共享列表,邀请其他人加入Strava社群。

  1. 进行实验

基于积累的认知,我们会再决定实验的新功能是否推广,成为用户体验的一部分。

威尼斯在线平台 2

在小范围的测试后,如果实验失败了,那就意味着这个失败的实验无法被推广到整个用户群体中。因此在设计时,我们会考虑如何合理分配有限的时间和资源。我们常常问自己:在用户体验中设计某个具体环节对实验结果有正面的又可衡量的影响吗?如果没有,我们会把这些环节的设计推迟到后期,等目前的实验成功后再做。这种方式确保了我们以最低成本的方式检验假设。

翻译:即能,公众号:即能学习

  1. 设计实验

实验设计完成后,在一部分用户中开展实验。要保证测试群体足够大,才能让你在最短的时间内(比如两周)达到统计学上的显著性。如果你的用户群体不大,请选择A/B测试而不是多变量测试。你的最终目标应该是,以最快的速度和最经济的手段验证你的假设,然后把成功的实验功能推广到整个用户群体中,最大限度地优化产品表现。

本文由威尼斯在线平台发布于威尼斯在线平台,转载请注明出处:那是它们的安排性增进实验,附简易案例数值深

关键词:

智能化商业路线图,云栖科技(science and technolog

原标题:云栖科学技术评价 | AI正在变得“普通” 前几日,“互连网+”的观点已经向各行业、各使用的纵深不断渗透...

详细>>

地平线余凯这么说,2018北京车展

原标题:什么是人造智能行业生态最根本的因素?地平线余凯那样说 1月十二日至七日,2018巴黎市国际车展在中夏族...

详细>>

李彦宏同台,2019社会风气智能AI大会

原标题:马云、马化腾、李彦宏同台,这场 AI 盛会不要错过丨限时报名 芯技术·芯架构·芯安全2019世界人工智能大会...

详细>>

廉价碳酸钠和碳皮米管质地起关键作用,二氧化

原标题:可呼吸Na-CO2电池研究再获突破,廉价碳酸钠和碳纳米管材料起关键作用 记者16日获悉,南开大学化学学院陈...

详细>>