主题:葫芦僧乱判葫芦案 -- 煮酒正熟
1 实验设计不是我,是我们的Advanced Analytics部门的数学博士兼统计学博士设计的,他的实力在公司内部受到高度承认。另外他组建并领导的竞赛小组,在正常工作的情况下,依然获得业内统计学模型竞赛的第四名(参赛公司近40家)。
另外,我的一位好友在Merkle,也是业内顶级公司。他们所使用的实验方式与我们的完全一样。
老兄是医学领域的,所谓隔行如隔山,您是更相信一个领域中很多家公司长期通用的方法呢,还是更相信少数不懂统计学也不相信Test-Control Groups理念的VP的直觉呢?
2 我前文没有交待清楚(实际应该说当时我自己也没琢磨清楚)。事实是,RFA Scoring都是categorical,根本不是工业和医学领域的测量值,所以计算standard deviation 或者variance(前者平方),does not make any sense.
至于前文说的28%等数字,那个指的是消费金额方面的差异。这个差异的P-value极小,说明两组的差异远远大于两组的振幅,为什么不能归结于“外力”作用呢?
我无意质疑他们的资历。我质疑的只是具体的施行。简单的说,由于你们的样本不同质,差异的原因不能想当然的归于处理因素。这跟统计博士没有任何关系。统计就是一份事实说一份话的干活。
首先,两个组严格来说确实不同质,但两组间本身差异非常小(Test大约比Control 优1-3%)。
加了外力后,两组差异变得非常大(28%)。
由此依然可以推出外力作用在统计学上的有效性。
其次,我们后来将Test组中的3000人与另2000拒绝使用PLCC的人合在一起,计算总的消费金额。
这5000人已与control那3000人同质了,所以具有完全可比性。
这样的比较结果大约是26-27%。怎么能否定外力的有效性呢?
加了外力后,两组差异变得非常大(28%)。
由于持卡的麻烦,我们根据常识判断,愿意持卡并真正查卡的人群,消费意愿本身可能就很高昂。你的实验组由于都是此类均一人群,score 高并不奇怪。你的对照组如果不愿持卡的人占多数,score 低当然就有可能。
不知道,
加了外力后,两组差异变得非常大(28%)
你们这个比较怎么做的,(均数比较?若是也没有意义)你若可能,你把你的统计步骤一次贴在这里以便讨论。
统计不是想当然,你不能觉得同质均一了就同质均一了,你还没有作齐性检验。何况你们这个补充调查是事后做的,就这样叫人家掏钱,也未免太强了点。呵呵。
我们是在同一类消费者中随机抽取了五千作为A组,另外随机抽取三千为C组。由于
是随机抽取,因此A、C理论上是同质的(当然存在样本差异)。
C组是我们的control group.
然后A组中,只有三千人愿意用卡。这三千人我们称为T组。
如果用这三千人作为test group,与C组进行比较,当然有问题。但并非不能得出正
确结论。
我们的历史记录现实,T组这三千人,在消费金额上只比C组的三千人高1-3%。所以
虽然两组不同质,但差异很小。
而用卡以后T组消费金额超过C组28%!这还不说明问题么?
最后,我们将T组三千人与那两千拒绝用卡的人合并到一起,等于就是初始的A组。
而这个A组与C组在理论上是同质的,因此是可比的。
A组在其中三千人用卡两千人未用卡的情况下,消费金额高出C组26%以上!这还不说
明问题么?
可以回答你这个说明。我的关注点并不在于是否真的有差异,而是看你们怎么用统计做出这个差异的。你的解释不能让人释怀。可能我们对统计的理解有一些不同(强调一下统计只有一个,行业不是问题)。我觉得我们都可以慢慢思考一下。
另:
虽然两组不同质,但差异很小
同质均一与否,完全不是你这么做得就可以得出结论的。
虽然两组不同质,但差异很小。
而用卡以后T组消费金额超过C组28%!这还不说明问题么?
还是不能安全地得出结论
却有可能存在严密性方面的差异。
医药领域我了解不多,但也许是比较严密吧。工业领域应该也是比较严密的。营销领域的严密性与医药和工业相比究竟怎么样,我不清楚。但具体来比较两组消费者,你总归要找出一些标准来进行比较吧?否则你怎么进行比较?我们所用的标准就是消费金额,因为这个最客观 (比利润客观)。而且整个行业都是用这个标准。要说整个行业都没有正确运用统计学,这个... 好几十万从业人员,数千的博士,大家都用这套思路,难道都不对?
从历史数据来看,A组与C组消费金额经过数量的adjustment后,是大体相同的(微小差异可以理解为noise),而对A施加外力后,A组却比C组高出26%以上。老兄简单一句“不能安全得出结论”,不知在统计学上有何理论依据?
这是均数比较,不能反映组内变异程度。如果组内变异大的话,两组之间的差异可能就不是处理因素引起的
我决无这个意思。我只是在就事论事。
会用统计软件不难,但了解背后的统计思想和原理是必要的。一套protocol 不能适用所有的统计对象的
P-value绝不是只考虑mean的。
我们所做的东西,是这个行业里数十家同类公司都在做的东西,所分析的对象情况是一样的,所选择的比较标准也是一样的(都是销售金额),除此之外,就是运用statistical analysis了,那个就是CrystalBall,也是业内非常普遍的统计学软件。
所以,如果质疑我们的做法,基本上就是在质疑整个行业多年来的做法了。
如果你用的事t检验,你固然计算了标准差,但两组之间的组内变异程度依然没有比较。
我觉得还是不要先拿一个框框为好。就统计谈统计。CrystalBall虽然我不知道是什么,但显然他不会只做t 检验。软件也不会告诉你们怎样挑选样本
那个公式里明明有两组的mean和两组的variance(或者standard deviation,其实是一码事)。无论是t statistic or F statistic,都是基于两组的mean and 组内差异才得到的。如果我们没有计算组内差异 而只关注两组均值,根本没可能得到t or F呀,得不到F,又怎么能得到P-value呢?
组内变异的比较是做方差齐性检验的,t 检验是做不出来的