一、AB实验简介——实验前1.1 为什么要做AB实验
产品经理打算修改ui,如何判断到底要不要修改为新的ui?
运营决定进行活动营销,如何判断哪种券带来的ROI最高?(ROI = 成交总额 / 成本,Return on investment)
俗话说,‘实验是检验真理的唯一标准’,在我们产生迭代想法之后,真正要做的不是凭着‘感觉’推出新策略(人的感觉是经常出错的),而是采用AB实验来验证想法,最后再将确实能带来正向收益的AB实验推至全量用户。
举个例子:现在大家对于购物车推荐功能已经习以为常(当你添加一件商品时,会看到一些关联的推荐)。亚马逊旗下Gred Linden打算上线此产品雏形时遭到了某位市场营销高级副总裁的极力反对,他认为这会分散用户注意力而影响结账,最终员工还是上线了一些对照实验,验证了效果,而这个功能给亚马逊带来了非常客观的利润。
1.2 AB实验原理及本质
A/B 测试的理论基础是假设检验(Hypothesis Testing)。假设我们现在有两个同质的样本组,本组对其中一个组作出改动,改动后观测此改动对我们所关注的核心指标是否有显著的影响。
那么如何判断影响是否显著呢?以p值是否<0.05来作为判断。
事实上原假设成立事实上原假设不成立
假设检验:原假设成立
(p>=0.05)
✅
第二类错误(以β代表犯第二类错误的概率。eg,某策略本来可以给产品带来正向收益,但是我们选择了‘维持现状’,没有进行更好的改进)
假设检验结果:原假设不成立
(p
第一类错误(以α代表犯第一类错误的概率。eg,某优化是没办法给产品带来正向收益的,但却因为错误的判断导致全量上线了这个实验,造成了损失)
✅
配合下面这个图食用更佳:
在我们施加了干预后,当前实验整体分布已经由‘红’变‘蓝’,均值变高,方差基本不变。
图上的α区域:如果此时计算得出的值在α区域,我们的确有理由拒绝原假设了,但很有可能这个点仍然在之前的‘红’分布中,所以我们可能第一类错误。
图上的β区域:如果此时计算得出的值在β区域,我们选择维持原假设,但很可能这个点已经属于’蓝‘分布了实验八固定资产管理实验报告,只是值还不够大,因此我们选择了维持现状。
有的时候,我们会听到统计功效(power)的概念,那么什么是统计功效呢? power = 1 - β,即在A组与B组的确存在差异的前提下,我们的确将此差异检测出来的概率,即上表中右下角‘如原假设不成立,事实上原假设不成立’的概率。换句话来说,我们将power理解为AB测试的灵敏度,power越大,越能够探查到两组数据的不一致。
二、 AB实验流程——实验中2.1 实验前:确定指标与假设
与运营(DS的实验需要运营共同配合)、产品/研发(互联网的大厂一般会开设相应的AB平台来统一管理实验,这个平台会有专人管理)共同敲定实验的验证点、核心指标、过程指标、约束指标等
在实验前,我们需要提出完整的验证点(即假设):我们通过改变XXX预期改变过程指标1、过程指标2,从而提高(降低)核心指标,在过程中不会使得约束指标上升(下降)
指标类型指标描述常用具体指标
核心指标
可以理解为实验中的北极星指标
人均完单次数
过程指标
在用户到达核心节点之前,会经历一层一层的漏斗,我们会观测每一个漏斗的变化来判断策略具体优化的是哪个点
人均点击次数
约束指标(护栏指标)
如果没有约束指标,有的核心指标会成为‘单调’的指标。
举个例子,如果运营活动派券很多,那么会导致大盘GMV上涨,但净利润可能在一定临界点后开始下降。
另外,用户可能习惯了这种价格,反而不会在正常的价格下进行购买,即不能因为用户的短期价值而忽视用户的长期价值。
从业务角度来说,APP加载时长、闪退率、人均指标如人均花费/利润等
从统计角度来说,实验组和对照组的样本比例需要接近预设值 且 实验组与对照组的用户特征分布需要答题相似
什么是用户量足够大呢?
不管随机变量的概率分布是什么,只要取样时的样本量足够大,那么这些样本的平均值的分布就会趋近于正态分布。在统计上,我们约定样本量大于 30 就属于足够大了。 而在现在的大数据时代,我们的样本量一般都能轻松超过 30 这个阈值,所以均值类指标可以近似为正态分布。
(内容扩展:在二项分布中,有一个从实践中总结出的经验公式:min(np,n(1-p)) >= 5。其中,n 为样本大小,p 为概率的平均值。这个公式的意思是说,np 或者 n(1-p) 中相对较小的一方大于等于 5,只有二项分布符合这个公式时,才可以近似于正态分布。这是中心极限定理在二项分布中的变体。)
那么如果说我们需要同时考虑几个指标呢?
此时可以建立一个综合性的指标(OEC),一般来讲的思路是将核心指标和约束指标放进同一个公式中,将约束指标作为‘惩罚项’,另外这种综合性的指标也可以避免统计学中的‘多重检验问题’。
分流节点如何定?
如果美团买菜的订单付款页面做出改动,那么请问实验应该在何处分流?答案见下,就不展开讲了~
2.2 样本量的计算
实验到底需要多少样本量呢?从假设检验的本质来看,样本应该越多越好,样本越多就越能代表总体。
但实际上样本量越小,实验需要进行的时间就越短,就能够更快地获得迭代效果。另外A/B实验不一定总是给指标带来好的方向的影响,这就有了一定的试错成本,在这个角度上我们又需要让样本量尽可能小。
结合理论和实际,我们需要在统计理论和实际业务场景这两者中间做一个平衡:在A/B测试中,既要保证样本量足够大,又要把实验控制在尽可能短的时间内。
n = (\frac{Z_{1-\frac{α}{2} } + Z_{1-β} }{MDE})^2σ^2
其中α为一类错误概率,β为二类错误概率。
MDE为实验预期的实验组比对照组的最小相对提升(Minimum Detectable effect,百分比形式表示),在决定MDE的时候,我们考虑工程成本、时间和不使用这些资源、运行其他测试的机会成本。注意,MDE是必须要决定的,因为我们的实验并不都是“只要不负向就可以上线”,所以做实验的收益必须要大于其成本。另外,在策略刚开始迭代时,决定MDE可能会有些困难,随着实验逐渐精细化,MDE的决策会变得越来越简单
Q1:按照上文中的公式,MDE越小,n越大?这是为什么?
A1:实验组和对照组的差值越小,越不容易被ABtest检测到,因此我们需要提高power,即更多的样本量来保证准确度
Q2:如何确定MDE呢?
A2:1)做实验都是有成本的,比如人力成本、时间成本等等,我们进行的改进需要抵消掉旧成本 2)从历史数据中寻找蛛丝马迹,根据以往的平均值和波动性算一个大概的差值
以上算出的样本量是每个组的样本量,如果实验组有多组,还需要与组数相乘,如果同时有多个要观察的指标,也需要针对于每个指标算一遍最小样本量实验八固定资产管理实验报告,取 n=max(n_{1},n_{2},n_{3}) 。
2.3 时间的计算
在实验开启前可以进行小流量的灰度实验,是为了验证我们上线之后不会造成比较极端的影响。
实验测算运行天数 = \frac{样本量 n × 实验组数}{每天进入组内的样本量}
在实际业务中,如果我们的业务周期是7天周期,那么需要考虑周内效应(可以参考 郑华筝:AB测试中的短期?长期?效应 即周中来的人跟周末来的人不一样)
2.4 AA测试
在正式实验开始之前,我们一般会有A/A 测试(A/A Test)也是把被测试对象分成实验组和对照组。但不同的是,A/A 测试中两组对象是采取了相同的策略,如果 A/A 测试时发现两组的指标有显著不同,那么就说明要么分组分得不均匀,需要重新分组;(在实际业务过程中,可以同时开启2组实验,防止一组空跑不过)
Q:如果没有之前实验过的数据,或者是因为某些原因(比如时间不够)没有办法跑AA,那么我们也可以通过分析历史数据,进行回溯性分析。
另外,如果我们运行AA,AA的时间需尽可能跟正式的AB时间一致,如果时间不够,就空跑3天(此为经验值)。
如果AA的显著性检验通过,我们的实验会正式开启。
#下列是率指标的显著性检验
power.prop.test(
p1=0.1, #控制组的率指标
p2=0.11, # 实验组的率指标
power=0.8, sig.level = 0.05 # these are power and significance level
)
#下列是均值指标的显著性检验
t.test(x, y,alternative = c("two.sided", "less", "greater"),
conf.level = 0.95)
三、AB实验分析——实验后3.1 显著性分析
Y = β_{0} + β_{1} X + \epsilon
其中X代表是否干预,Y代表因变量
model = smf.ols('y ~ credit_limit', data=risk_data).fit()
model.summary().tables[1]
intercept 代表没有任何干预时的y均值,credit_limit代表干预代表的效应,其对应的p值接近0,远小于0.05
3.2 维度下钻分析(异质性分析)
可借鉴用户画像的维度,年龄、城市、性别、业务线等等来进行下钻分析(这在统计中叫做条件平均处理效应,Conditional Average Treatment Effect,CATE),举个例子,我们可能会发现实验组之所以比对照组的核心指标高主要是因为对实验组的男性用户提升明显,女性用户效果不明显。
当然,下钻分析的结果是不能作为实验结论的,可以作为未来的迭代方向。(因为 1. 实验组和对照组内的性别比不一定一致 2.算最小样本量时并未下钻)
例如可以:
# Linear Regression
y = ax + b
y: 如果被转化了记为1,没被转化记为1
x: 实验组记为1,对照组记为0
a: 施加干预对用户转化概率的提升
formula = 'converted ~ C(group)'
lm = ols(formula, data).fit()
print(lm.summary())
如上图,截距项intercept的含义是:当group = control group时,因变量Y的转化率估计值。施加干预后,△转化率(实验组 vs 对照组) = -0.0014,但p值不显著。
我们加入另一个协变量’国家‘:
formula = 'converted ~ C(group) + C(country)'
lm1 = ols(formula, data).fit()
print(lm1.summary())
此时Treatment的coef不变,仍为-0.0014,这说明处置效应非常稳定。Coef(UK)=0.0048,Coef(US)=0.0037。
另外我们也需要研究不同国家之中处置效应的不同,即对UK的用户施加干预和 vs US的用户施加干预的平均处置效应可能是不同的。(即异质性分析)
主效应与交互作用(p. 420, Statistical Methods for Psychology)
formula = 'converted ~ C(group) + C(country) + C(group)*C(country)'
lm2 = ols(formula, data).fit()
print(lm2.summary())
此时Coef(treatment)产生了变化为-0.0066。而Contry 与 Group 两者交互项的系数则代表不同国家的处置效应,另外以上系数的p值均不显著。
3.3 实验放量3.4 实验归档四、 AB实验易错点 & tips4.1 多重检验
郑华筝:ABTest中的多重检验实战及R代码 - 面试攻略
4.2 实验不显著怎么办?
郑华筝:如何判断AB实验是否显著?如果结果不显著,那怎么办?
会计信息系统实习报告总结
会计信息是企事业单位最重要的经济信息,它连续、系统、全面、综合的反映和监督企业经营状况和财务状况,并为企业的管理、经营决策提供重要依据。因此有一种会计理论把会计理解为信息系统,而在现代科学技术的背景下,这样的信息系统无疑就是计算机管理信息系统。计算机会计信息系统以计算机为主要工具,对各种会计数据进行收集、记录、存储、处理与输出,并完成对会计信息的分析电算化固定资产管理的心得体会,向使用者提供所需会计信息,辅助他们管理、预测和决策,提高企业管理水平与经济效益。
一、实验的必要性以及实验目的
这次实训的内容就是熟练掌握好会计应用软件,我们所用的是金蝶ERP系统适用于资本管控型、战略管控型及运营管控型的集团企业。金蝶ERP为资本管控型的多元化企业集团提供财务、预算、资金和高级人才的管控体系,为战略管控型的集团企业提供集团财务、企业绩效管理、战略人力资源、内控与风险的全面战略管控,为运营管控型的集团提供战略采购、集中库存、集中销售与分销、协同计划及其复杂的内部交易和协同供应链的集成管理。了解总账系统的工作流程;了解总账系统的功能模块;了解总账系统各种账簿报表的查询方法;熟悉各种基础资料的设置;掌握总帐各业务操作技巧及注意要点;掌握总帐系统期末处理工作流程。
此实习旨在通过对金蝶k/3ERP软件的操作电算化固定资产管理的心得体会,达到熟练掌握会计信息系统应用软件操作方法的试验目的。了解会计信息系统各项模块,能够熟练操作总账系统、报表、供应链各个系统的基本操作。
二、各系统功能描述
1.总账系统
账务处理系统是利用计算机完成账务处理工作的系统,无论是企业内部管理所需要的会计信息,还是企业外部有关决策者所需要的会计信息,都必须由账务处理系统对发生的经济业务进行加工处理后才能取得。首先建立账套并对其进行系统设置,启用账套;之后进行账套初始化,包括完成账套系统基础资料的维护及初始数据录入并结束初始化工作;日常账务处理的练习就是根据资料录入记账凭证,对其进行审核、过账,进行业务往来核销,利用自动转账功能结转有关费用。进行期末调汇、结转损益等业务处理并进行期末结账。
…… …… 余下全文
本文内容整理收集与网络,仅供学习交流使用,不代表CRM论坛观点。如有侵权,请联系我们,我们将会及时删除处理。
云呐固定资产管理系统是专业销售和研发各种固定资产管理系统,固定资产管理软件,企业条码固定资产管理系统等软件产品,产品作用功能优势明显欢迎来选购!咨询电话:13157126221