主题：葫芦僧乱判葫芦案 -- 煮酒正熟

共:💬133 🌺93

老大河待整

全看树展主题 · 分页首页上页下页末页

复统计设计和理解小有问题

家园

自我辩护一哈~

1 实验设计不是我，是我们的Advanced Analytics部门的数学博士兼统计学博士设计的，他的实力在公司内部受到高度承认。另外他组建并领导的竞赛小组，在正常工作的情况下，依然获得业内统计学模型竞赛的第四名(参赛公司近40家)。

另外，我的一位好友在Merkle，也是业内顶级公司。他们所使用的实验方式与我们的完全一样。

老兄是医学领域的，所谓隔行如隔山，您是更相信一个领域中很多家公司长期通用的方法呢，还是更相信少数不懂统计学也不相信Test-Control Groups理念的VP的直觉呢？

2 我前文没有交待清楚(实际应该说当时我自己也没琢磨清楚)。事实是，RFA Scoring都是categorical，根本不是工业和医学领域的测量值，所以计算standard deviation 或者variance(前者平方)，does not make any sense.

至于前文说的28%等数字，那个指的是消费金额方面的差异。这个差异的P-value极小，说明两组的差异远远大于两组的振幅，为什么不能归结于“外力”作用呢？

复自我辩护一哈~

家园

统计原理在哪里都是一样的。

我无意质疑他们的资历。我质疑的只是具体的施行。简单的说，由于你们的样本不同质，差异的原因不能想当然的归于处理因素。这跟统计博士没有任何关系。统计就是一份事实说一份话的干活。

这个差异的P-value极小，说明两组的差异远远大于两组的振幅，为什么不能归结于“外力”作用呢？

这个差异可以由组内因素引起。你的P-value只能用于说明两组之间有差异。不能说明引起差异的原因。建议你读一下F检验的原理和来由。你也可以把你们的统计过程贴出来，我们也好仔细合计合计

复统计原理在哪里都是一样的。

家园

继续继续

首先，两个组严格来说确实不同质，但两组间本身差异非常小(Test大约比Control 优1-3%)。

加了外力后，两组差异变得非常大(28%)。

由此依然可以推出外力作用在统计学上的有效性。

其次，我们后来将Test组中的3000人与另2000拒绝使用PLCC的人合在一起，计算总的消费金额。

这5000人已与control那3000人同质了，所以具有完全可比性。

这样的比较结果大约是26-27%。怎么能否定外力的有效性呢？

复继续继续

家园

统计不是这样做的吧？

，。

加了外力后，两组差异变得非常大(28%)。

由于持卡的麻烦，我们根据常识判断，愿意持卡并真正查卡的人群，消费意愿本身可能就很高昂。你的实验组由于都是此类均一人群，score 高并不奇怪。你的对照组如果不愿持卡的人占多数，score 低当然就有可能。

不知道，

但两组间本身差异非常小(Test大约比Control 优1-3%)。

加了外力后，两组差异变得非常大(28%)

。

你们这个比较怎么做的，（均数比较？若是也没有意义）你若可能，你把你的统计步骤一次贴在这里以便讨论。

这5000人已与control那3000人同质了，所以具有完全可比性。

统计不是想当然，你不能觉得同质均一了就同质均一了，你还没有作齐性检验。何况你们这个补充调查是事后做的，就这样叫人家掏钱，也未免太强了点。呵呵。

复统计不是这样做的吧？

家园

老兄请再仔细看看我的原文

我们是在同一类消费者中随机抽取了五千作为A组，另外随机抽取三千为C组。由于

是随机抽取，因此A、C理论上是同质的(当然存在样本差异)。

C组是我们的control group.

然后A组中，只有三千人愿意用卡。这三千人我们称为T组。

如果用这三千人作为test group，与C组进行比较，当然有问题。但并非不能得出正

确结论。

我们的历史记录现实，T组这三千人，在消费金额上只比C组的三千人高1-3%。所以

虽然两组不同质，但差异很小。

而用卡以后T组消费金额超过C组28%！这还不说明问题么？

最后，我们将T组三千人与那两千拒绝用卡的人合并到一起，等于就是初始的A组。

而这个A组与C组在理论上是同质的，因此是可比的。

A组在其中三千人用卡两千人未用卡的情况下，消费金额高出C组26%以上！这还不说

明问题么？

复老兄请再仔细看看我的原文

家园

我再上一个帖子补充了我的观点。

可以回答你这个说明。我的关注点并不在于是否真的有差异，而是看你们怎么用统计做出这个差异的。你的解释不能让人释怀。可能我们对统计的理解有一些不同（强调一下统计只有一个，行业不是问题）。我觉得我们都可以慢慢思考一下。

另：

我们的历史记录现实，T组这三千人，在消费金额上只比C组的三千人高1-3%。所以

虽然两组不同质，但差异很小

同质均一与否，完全不是你这么做得就可以得出结论的。

我们的历史记录现实，T组这三千人，在消费金额上只比C组的三千人高1-3%。所以

虽然两组不同质，但差异很小。

而用卡以后T组消费金额超过C组28%！这还不说明问题么？

还是不能安全地得出结论

复我再上一个帖子补充了我的观点。

家园

统计学本身当然是不变的，但在各领域内的应用

却有可能存在严密性方面的差异。

医药领域我了解不多，但也许是比较严密吧。工业领域应该也是比较严密的。营销领域的严密性与医药和工业相比究竟怎么样，我不清楚。但具体来比较两组消费者，你总归要找出一些标准来进行比较吧？否则你怎么进行比较？我们所用的标准就是消费金额，因为这个最客观 (比利润客观)。而且整个行业都是用这个标准。要说整个行业都没有正确运用统计学，这个... 好几十万从业人员，数千的博士，大家都用这套思路，难道都不对？

从历史数据来看，A组与C组消费金额经过数量的adjustment后，是大体相同的(微小差异可以理解为noise)，而对A施加外力后，A组却比C组高出26%以上。老兄简单一句“不能安全得出结论”，不知在统计学上有何理论依据？

复统计学本身当然是不变的，但在各领域内的应用

家园

因为你们没有排除variance 的影响

A组与C组消费金额经过数量的adjustment后，是大体相同的

这是均数比较，不能反映组内变异程度。如果组内变异大的话，两组之间的差异可能就不是处理因素引起的

复统计学本身当然是不变的，但在各领域内的应用

家园

一套protocol 不能适用所有的统计对象的

要说整个行业都不懂统计学，这个... 好几十万从业人员，数千的博士，大家都用这套思路，难道都不对？

我决无这个意思。我只是在就事论事。

会用统计软件不难，但了解背后的统计思想和原理是必要的。一套protocol 不能适用所有的统计对象的

复因为你们没有排除variance 的影响

家园

但是P-value的计算是已经考虑过variance的因素了呀

P-value绝不是只考虑mean的。

复一套protocol 不能适用所有的统计对象的

家园

还是我说过多次的

我们所做的东西，是这个行业里数十家同类公司都在做的东西，所分析的对象情况是一样的，所选择的比较标准也是一样的(都是销售金额)，除此之外，就是运用statistical analysis了，那个就是CrystalBall，也是业内非常普遍的统计学软件。

所以，如果质疑我们的做法，基本上就是在质疑整个行业多年来的做法了。

复但是P-value的计算是已经考虑过variance的因素了呀

家园

不是这样的

如果你用的事t检验，你固然计算了标准差，但两组之间的组内变异程度依然没有比较。

复还是我说过多次的

家园

统计细节定非如此

我觉得还是不要先拿一个框框为好。就统计谈统计。CrystalBall虽然我不知道是什么，但显然他不会只做t 检验。软件也不会告诉你们怎样挑选样本

复不是这样的

家园

老兄我觉得是你忘记了两组比较那个公式了

那个公式里明明有两组的mean和两组的variance(或者standard deviation，其实是一码事)。无论是t statistic or F statistic，都是基于两组的mean and 组内差异才得到的。如果我们没有计算组内差异而只关注两组均值，根本没可能得到t or F呀，得不到F，又怎么能得到P-value呢？

复老兄我觉得是你忘记了两组比较那个公式了

家园

嗬嗬，你弄差了

组内变异的比较是做方差齐性检验的，t 检验是做不出来的

全看树展主题 · 分页首页上页下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明