关于A/B测试所要了解的五个要点

1. 别基于少量样本就做出结论。
对于任何对统计学知识略知一二的人来说,这似乎显而易见,但是非常重要,值得先来介绍。
A/B测试的样本数量很棘手,不像大多数人所想或希望的那么简单。但这其实只是与统计置信度有关的更大难题的一部分;只有拥有必要的样本数量和完成实验所必需的时间,才能获得统计置信度。合理地试验设计将会考虑预期的统计置信度所需的样本数量和转换次数,让试验得以全面展开,而不是因似乎有了成功的结果而提前停止试验。
可以在 此处 进一步了解样本大小和计算A/B测试统计置信度的更多信息。
2. 别忽视A/ B测试的心理因素。
假设你在搞电子邮件A/B测试。做好了试验准备,以便两个组有同样的电子邮件内容,但标题行不一样。这些标题行变体就是测试的对象,由于这些标题行在打开邮件之前对用户来说是可见的(实际上用于衡量邮件的有效性),这里要测试的度量标准显然是邮件打开率,是不是?
这得看情况。促销活动的目标是什么?你是否只对打开它(或间接地阅读它)感兴趣?更可能的是,目标是让用户随后完成某种行为召唤(CTA,比如点击),因此该CTA即点击率可能是更准确的度量标准。
但是打开电子邮件后,已经可见的标题行如何导致不一样的点击率?一切与心理因素有关。举个例子:你的电子邮件旨在促销数据科学会议活动,会议主角是数据科学超级明星Jane Q. Public,举办地在波士顿。你有2个可供选用的标题行:
向最优秀的专家学习数据科学!
与Jane Q. Public一起出席今年11月在波士顿举办的2018年数据大会
你已对这些标题设定了期望,只有其中一个具有现实意义。用第一个吸引打开并没有让读者准备好邮件可能的内容,失望或期望未得到满足的可能性大得多,因此点击量无疑受到影响。另一方面,第二个预期邮件含有实际的信息,打开的那些人点击的可能性大得多。
3. 注意局部最小值;A/B测试并不适合一切。
A/B测试解决不了一切,因为它并不适合一切。
改变着陆页可能是良好的A/B测试,改变网站或表单上的按钮位置可能是良好的A/B测试。完整的网站重新设计是不是良好的A/B测试不好说,这取决于如何搞试验。
增量变化通常很适合A/B测试。但是,增量变化可能无法实现你想要实现的目标,就因为你想当然地以为自己的起点正确。局部最小值将你的产品概念化成一个数学函数,类似于已获得的设计常规。倘若你没有考虑到这点:如果采用一种更全面的方面来重新设计产品,可获得全局最小值(或甚至更理想的局部最小值),调整现有产品就毫无价值。这是多此一举。
要点是,一头扎入A/B测试不是好主意。先确定目标,一旦你确定A/B测试可以帮助你实现目标,然后再决定试验。之后,设计试验。只有这样才能实施A/B测试。
4. 分桶(bucket)是重点。
先不妨考虑在不知道总体(population)中属性分布的情况下,我们如何在分配分桶之前最有效地确保分桶之间的可比性。
答案很简单:随机选择和分桶分配。在不考虑总体任何属性的情况下,随机选择和分桶分配是一种统计上合理的方法,假设可供使用的总体足够大。
比如说,假设你在测试针对网站功能的改变,只对来自特定地区(美国)的响应感兴趣。先分成两组(对照组和处理组),而不考虑用户区域(假设总体足够大),分配的美国访客应在这两组之间分派。从这两个分桶中,可以检查访客属性以便测试

 5. 分析中只包括可能受变化影响的人员。
Emily阐述的第11点探讨了这一点:
如果你的试验中有用户的体验没有受到变化的影响,你是在增加噪音,削弱检测效果的能力。
很棒的建议!Emily随后举了两个直观的例子:
1. 如果你改变特定页面的布局,只有在用户实际访问该页面的情况下才将他们添加到试验中。
2. 如果你尝试将免费发货阈值从$ X调低到$ Y,试验中应该只包括购物车商品金额介于$ X和$ Y之间的那些用户;他们将是处理组与对照组当中唯一看到差异的用户。
Emily紧接着提出了一个相关的建议:只有在用户访问相关网页后才开始跟踪你的度量指标:
设想你在搜索页面上运行试验,有人访问你的网站,从主页购物,然后访问搜索页面,这时开始试验。
显而易见,A/B测试本身就是一门专业,贸然开始试验只会带来混乱。但愿这五个简单的要点对你有所帮助。
转载请注明本文链接: http://www.mayidui.net/t2354.html

boff1314 大白 沙发

2018-10-26 09:27

666666每日一顶
转载请注明本文链接: http://www.mayidui.net/t2354.html
游客
登录后才可以回帖,登录 或者 注册