最近在Andrew Gelman的blog里面看到这篇: “The truth wear off: Is there something wrong with scientific method?”. 文中主要讨论的问题是, 为啥有些结论在发表的时候在统计上显著, 但是后续研究中却发现显著性没有那么高. 搞过研究的同学对这个现象肯定是深恶痛绝吧. 对这个问题感兴趣的可以看一下这篇New Yorker文章中的例子.
Gelman以前写过一篇paper, 讨论过类似的问题. 用小报的语气来概括这篇paper就是: 有个LSE的学生Satoshi Kanazawa 2005年-2007年在Journal of Theoretical Biology上面发表了一系列题目耸人听闻的文章, 比如: “Big and Tall Parents Have More Sons” (2005), “Violent Men Have More Sons” (2006), “Engineers Have More Sons, Nurses Have More Daughters” (2005), 还有 “Beautiful Parents Have More Daughters” (2007). 大牛Andrew Gelman被Kanazawa文章里面统计的误用给激怒了, 于是写了一篇paper来揭露真相. 不过这种误用之所以层出不穷, 说到底还是体制上的问题, 比如统计教育, 科研体制什么的. Gelman的这篇paper写得很平易近人, 只要上过一学期统计的同学就能读懂, 这也是为了让更多搞实际研究的人认识到这个问题, 使用更加严谨的统计方法.
Gelman的paper主要讲的是effect size, Type M and Type S error什么的. 简单地说, 就是你要明确两个群体之间的差异大概有多大, 然后判断你的实验规模对于这个尺度的差异是否有效, 如果你的实验或者调查的规模过小, 那么结果要不然不显著, 如果显著则很有可能会高估两个群体的差异. 不过除了Gelman的解释, 我对于显著性的衰减还有两个更浅显的例子.
假如我们用p值=0.95来判断是否显著, 我们挑了100篇报道了显著结果的paper, 里面有多少篇可能是false positive呢? 是5篇么? 当然不是啦. 我也不知道应该是多少, 因为我不知道一共有多少研究者发现了negative的结果而没有发表出来. 这就好比p值只能在只有一个假设检验的时候用. 如果你有好几个假设, 针对每一个单独做了检验, 从里面挑了一个显著的写进了paper, 你就犯了multiple comparison的错误. 但是现在有可能有很多人在研究那些根本不存在, 或者效果很小的现象, 有些人撞了大运, 发了paper, 但是negative的结果却没有被公开. 更重要的是, 当一个新结果发表之后, 也许后来者不能重复出原来的结果, 但是它们要不然没有被发表, 要不然就只能发表在影响力很小的地方, 影响不了原来结果的权威性, 这是和贝叶斯概率的道理完全背道而驰的.
第二个例子, 假设我研究的变量是正态分布, mean=0, sigma=1, 用两个标准差作为判断标准, 我”希望”能发现均值不等于0. 假如我有很多经费, 我可以不可以不断增大我的样本, 直到我找到显著的结果呢? 下面是我写的一段很简陋的R代码来模拟这个过程, 结果如下:
xSum <- 0
xEP <- 0
for (i in 1:3000){
xSum <- xSum + rnorm(1)
xEP[i] <- xSum / sqrt(i)
}
plot(xEP, type = "l", ylab = "se")
模拟的结果在样本大小2000多的时候的确小于两个标准差, 不过后来又升回去了, 如果选择在这个时候结束实验就能得到想要的结果. 实际上这是一个empirical process, 如果有足够多的样本是一定能得到显著结果的! 当然这么做也是错误的. 我的中心思想就是, 我们需要精心设计的实验, 还需要有个地方收集negative的结果. 想了解更多请看Andrew Gelman的paper吧.






Recent Comments