五千年(敝帚自珍)

主题:葫芦僧乱判葫芦案 -- 煮酒正熟

共:💬133 🌺93
全看树展主题 · 分页首页 上页
/ 9
下页 末页
家园 自我辩护一哈~

1 实验设计不是我,是我们的Advanced Analytics部门的数学博士兼统计学博士设计的,他的实力在公司内部受到高度承认。另外他组建并领导的竞赛小组,在正常工作的情况下,依然获得业内统计学模型竞赛的第四名(参赛公司近40家)。

另外,我的一位好友在Merkle,也是业内顶级公司。他们所使用的实验方式与我们的完全一样。

老兄是医学领域的,所谓隔行如隔山,您是更相信一个领域中很多家公司长期通用的方法呢,还是更相信少数不懂统计学也不相信Test-Control Groups理念的VP的直觉呢?

2 我前文没有交待清楚(实际应该说当时我自己也没琢磨清楚)。事实是,RFA Scoring都是categorical,根本不是工业和医学领域的测量值,所以计算standard deviation 或者variance(前者平方),does not make any sense.

至于前文说的28%等数字,那个指的是消费金额方面的差异。这个差异的P-value极小,说明两组的差异远远大于两组的振幅,为什么不能归结于“外力”作用呢?

家园 统计原理在哪里都是一样的。

我无意质疑他们的资历。我质疑的只是具体的施行。简单的说,由于你们的样本不同质,差异的原因不能想当然的归于处理因素。这跟统计博士没有任何关系。统计就是一份事实说一份话的干活。

这个差异的P-value极小,说明两组的差异远远大于两组的振幅,为什么不能归结于“外力”作用呢?
这个差异可以由组内因素引起。你的P-value只能用于说明两组之间有差异。不能说明引起差异的原因。建议你读一下F检验的原理和来由。你也可以把你们的统计过程贴出来,我们也好仔细合计合计

家园 继续继续

首先,两个组严格来说确实不同质,但两组间本身差异非常小(Test大约比Control 优1-3%)。

加了外力后,两组差异变得非常大(28%)。

由此依然可以推出外力作用在统计学上的有效性。

其次,我们后来将Test组中的3000人与另2000拒绝使用PLCC的人合在一起,计算总的消费金额。

这5000人已与control那3000人同质了,所以具有完全可比性。

这样的比较结果大约是26-27%。怎么能否定外力的有效性呢?

家园 统计不是这样做的吧?

,。

加了外力后,两组差异变得非常大(28%)。

由于持卡的麻烦,我们根据常识判断,愿意持卡并真正查卡的人群,消费意愿本身可能就很高昂。你的实验组由于都是此类均一人群,score 高并不奇怪。你的对照组如果不愿持卡的人占多数,score 低当然就有可能。

不知道,

但两组间本身差异非常小(Test大约比Control 优1-3%)。

加了外力后,两组差异变得非常大(28%)

你们这个比较怎么做的,(均数比较?若是也没有意义)你若可能,你把你的统计步骤一次贴在这里以便讨论。

这5000人已与control那3000人同质了,所以具有完全可比性。

统计不是想当然,你不能觉得同质均一了就同质均一了,你还没有作齐性检验。何况你们这个补充调查是事后做的,就这样叫人家掏钱,也未免太强了点。呵呵。

家园 老兄请再仔细看看我的原文

我们是在同一类消费者中随机抽取了五千作为A组,另外随机抽取三千为C组。由于

是随机抽取,因此A、C理论上是同质的(当然存在样本差异)。

C组是我们的control group.

然后A组中,只有三千人愿意用卡。这三千人我们称为T组。

如果用这三千人作为test group,与C组进行比较,当然有问题。但并非不能得出正

确结论。

我们的历史记录现实,T组这三千人,在消费金额上只比C组的三千人高1-3%。所以

虽然两组不同质,但差异很小。

而用卡以后T组消费金额超过C组28%!这还不说明问题么?

最后,我们将T组三千人与那两千拒绝用卡的人合并到一起,等于就是初始的A组。

而这个A组与C组在理论上是同质的,因此是可比的。

A组在其中三千人用卡两千人未用卡的情况下,消费金额高出C组26%以上!这还不说

明问题么?

家园 我再上一个帖子补充了我的观点。

可以回答你这个说明。我的关注点并不在于是否真的有差异,而是看你们怎么用统计做出这个差异的。你的解释不能让人释怀。可能我们对统计的理解有一些不同(强调一下统计只有一个,行业不是问题)。我觉得我们都可以慢慢思考一下。

另:

我们的历史记录现实,T组这三千人,在消费金额上只比C组的三千人高1-3%。所以

虽然两组不同质,但差异很小

同质均一与否,完全不是你这么做得就可以得出结论的。

我们的历史记录现实,T组这三千人,在消费金额上只比C组的三千人高1-3%。所以

虽然两组不同质,但差异很小。

而用卡以后T组消费金额超过C组28%!这还不说明问题么?

还是不能安全地得出结论

家园 统计学本身当然是不变的,但在各领域内的应用

却有可能存在严密性方面的差异。

医药领域我了解不多,但也许是比较严密吧。工业领域应该也是比较严密的。营销领域的严密性与医药和工业相比究竟怎么样,我不清楚。但具体来比较两组消费者,你总归要找出一些标准来进行比较吧?否则你怎么进行比较?我们所用的标准就是消费金额,因为这个最客观 (比利润客观)。而且整个行业都是用这个标准。要说整个行业都没有正确运用统计学,这个... 好几十万从业人员,数千的博士,大家都用这套思路,难道都不对?

从历史数据来看,A组与C组消费金额经过数量的adjustment后,是大体相同的(微小差异可以理解为noise),而对A施加外力后,A组却比C组高出26%以上。老兄简单一句“不能安全得出结论”,不知在统计学上有何理论依据?

家园 因为你们没有排除variance 的影响

A组与C组消费金额经过数量的adjustment后,是大体相同的

这是均数比较,不能反映组内变异程度。如果组内变异大的话,两组之间的差异可能就不是处理因素引起的

家园 一套protocol 不能适用所有的统计对象的

要说整个行业都不懂统计学,这个... 好几十万从业人员,数千的博士,大家都用这套思路,难道都不对?

我决无这个意思。我只是在就事论事。

会用统计软件不难,但了解背后的统计思想和原理是必要的。一套protocol 不能适用所有的统计对象的

家园 但是P-value的计算是已经考虑过variance的因素了呀

P-value绝不是只考虑mean的。

家园 还是我说过多次的

我们所做的东西,是这个行业里数十家同类公司都在做的东西,所分析的对象情况是一样的,所选择的比较标准也是一样的(都是销售金额),除此之外,就是运用statistical analysis了,那个就是CrystalBall,也是业内非常普遍的统计学软件。

所以,如果质疑我们的做法,基本上就是在质疑整个行业多年来的做法了。

家园 不是这样的

如果你用的事t检验,你固然计算了标准差,但两组之间的组内变异程度依然没有比较。

家园 统计细节定非如此

我觉得还是不要先拿一个框框为好。就统计谈统计。CrystalBall虽然我不知道是什么,但显然他不会只做t 检验。软件也不会告诉你们怎样挑选样本

家园 老兄我觉得是你忘记了两组比较那个公式了

那个公式里明明有两组的mean和两组的variance(或者standard deviation,其实是一码事)。无论是t statistic or F statistic,都是基于两组的mean and 组内差异才得到的。如果我们没有计算组内差异 而只关注两组均值,根本没可能得到t or F呀,得不到F,又怎么能得到P-value呢?

家园 嗬嗬,你弄差了

组内变异的比较是做方差齐性检验的,t 检验是做不出来的

全看树展主题 · 分页首页 上页
/ 9
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河