2015年读的书

All knowledge is, in final analysis, history.

All sciences are, in the abstract, mathematics.

All judgements are, in their rationale, statistics.

                                            ——Statistics and Truth  by C. R. Rao

以自己尚未阅读完的<statistics and truth>的开篇作为开头,感觉自己似乎也更加厉害了一点。这几话我深深地认同,感觉这些观点在未来一段时间里也将主导着我对科学的看法。

按照阅读的顺序,农历的2015年阅读了如下书籍:

《冰与火之歌:一》

《冰与火之歌:二》

《冰与火之歌:三》

《名利场》

《冰与火之歌:四》

Guns, Germs, and Steel : The Fates of Human Societies

《娱乐至死》

《人类简史:从动物到上帝》

《解忧杂货店》

《明朝的那些事儿》

《中国近代史》(徐中约)

50 years of data science, by David Donoho (以下称 50 years,是一本小册子)

The Lady Tasting Tea : How Statistics Revolutionized Science in the Twentieth Century,  by David Salsburg (以下称 the lady)

今年的阅读内容,并不是非常均衡,历史类的书籍较多。《人类简史》和Guns, Germs and Steel是与人类社会相关的宏观的历史;《明朝的那些事儿》、《中国近代史》是中国的历史;《The lady tasting tea》、50 years of data science是关于统计的历史。《娱乐至死》也可以算作为是历史,只不是一个聚焦于电视出现前后这一段。其他都是小说,都挺有意思的。关于《名利场》、《冰与火之歌:1~4》和《Guns, Germs, and Steel : The Fates of Human Societies》之前写过总结。《人类简史》、《娱乐至死》和《解忧杂货店》也写过总结。所以现在主要说后面的几个。

《中国近代史》应该算是我阅读的第二本关于中国近代的非官方的历史书(第一本是高华的《红太阳》),也许是一个受过教育的应该阅读的书籍,至少相对客观地讲述了不少事实。换了一个视角,少了一些煽动和夸张、多一些事实与评估。不管是对于太平天国运动,还是义和团运动,在这本书中的解读,与我在高中历史中所要记忆的内容,似乎是有一些差别的。对于历史教科书中努力所包装和掩盖的历史事实,这本书里并没有明显的避讳。非常重要的一点是,作者从中国人的角度,讲述中国人这段比较受屈辱的历史,这种情感本身还是能够体会到的。如果说一个民族或者文化确实有集体意识的话,那么作为中国人,了解近代中国这段并不辉煌的历史之后,可能会对中国人的自卑感、努力寻求“国际面子”以及崇洋媚外的现象有更多的理解和同情。对于执政党而言,从革命到目前这种角色与功能的变化,其实是很自然的转换,因此不必抱有太多的奢望。另外一点,就是对于利益既得集团是否会真正地“带动后富”持有非常强烈的怀疑态度,因为人往往很害怕失去利益,这是Tversky 和Kahneman的研究早已经发现的。

《明朝的那些事儿》写法比较有趣,掺杂的个人观点和推测过多,有一种半历史半小说的感觉,但总体还是不错的。作者个人的观点算是非常鲜明,具有明显的自由和理想主义的成分在其中,其结尾以徐霞客的事迹。不过作者还是相对客观地转述了比较残酷的历史,在这个历史之中,没有能力的理想主义者(如海瑞)是无法办成大事的,最终成为政治斗争中一个杀伤力比较大的棋子。真正能够部分实现理想主义的,比如朱元璋、朱棣、张居正等,都是复杂的、心狠手辣的但同时有一些理想主义的人。记得之前听易中天讲三国中的曹操,也是一个非常复杂的人物。不知道这是否是中国文化下的一特色,还是人类政治中的正常现象。记得在看某本书的时候,提到了近代美国历史学家们对美国国父们的重新评估,也发现他们起草《人权宣言》和《宪法》时,也是在争夺自己的经济利益。从这个角度来讲,政治家(有理想的)和政客(没有理想的)从表面上看起来区别确实很小,尤其是从当代的角度来讲。也说明确实要多去了解历史,因为历史中体现的,是真实的人性。从理解人性这个角度而言,历史与心理学其实是有着共同的理想的。难怪在《基地》系统中,最高级的科学是心理史学,用数学来预测人类社会的群体行为。

回到统计史。已经读过的the lady和50 years,和正在读的<statistics and truth>,都是几乎不涉及到公式。这些书可能对于作者来说比较难受,因为学过数学的人好像都喜欢简洁的数学公式来进行思维。the lady这本书的副标题还是非常准确的:How Statistics Revolutionized Science in the Twentieth Century。主要的内容,就是在统计学应用于其他科学之中时,许多大牛们的故事。这些大牛们的事迹也再次让我看到,搞数学或者相关专业真是需要天分的:不少为统计学做出贡献的人,出身非常低微,甚至小时候没有怎么受过正式的教育就对数学非常感兴趣,然后一旦有机会获得学习数学的机会,立刻展现出他们惊人的天赋。这一点上,真是不得不服。

the lady和50 years这两本书的共同之处,指出数理统计(mathematic statistics)比较尴尬的一点:随着统计在其他学科的应用,以至于其他学科中的研究者开始相对独立地发展自己的统计方法,不再从数理统计中寻找帮助。在the lady中提到的是,在数理统计中已经被证明或者发现的方法,在其他领域再一次被发现,然后再冠以另一个不同的名字。而在50 years这书里,提到是许多大学被大数据冲昏头脑之际要搞所谓的大数据研究时,往往完全把原有的统计学系或者应用数学系抛一边,好像统计学跟数据科学没有关系似的。这个问题一方面与数理统计学家沉迷于抽象的数学证明而不屑于做实际的数据分析问题有关,另一方面也是在实际数据分析问题本身变得越来越复杂,并不是将一些数据原理简单地套用,因此在长期进行数据分析的人可能反而更有发言权。此外,从the lady这本上来看,许多统计方法实际就是为解决某一类数据的特点而发展出来的,所以进行抽象数学分析似乎很可能被人所遗忘。

the lady这本书的特点是每一章与相对的独立,每一章或者第几章集中于某一个统计学家,讲TA们的成长与贡献,可读性比较强,尤其是早期Fisher,老Pearson,以及小Peason和Neyman之间的恩怨,非常有意思。另外这一本书比较推荐心理学背景的人读一读,因为从这本书上,我们可以了解一下本科时期在《心理统计学》以及《实验心理学》学习到许多内容的历史。至于对于我而言,认识到了这样一个事实:我们学习到的实验设计,实际上背后是有严格的数理证明。这些实验设计的方法,可以最早追溯到Fisher在农业研究站中的工作。实际上,也正是他早期几本减少数学推理,侧重原理和应用解释的书,推动了其实验设计的方法在各个学科中普及开来(后果就是大家都不再重视数学推理过程,甚至直接忽略!)。至于《心理统计学》,那更是从许多统计学家的成果中沿袭过来的,当然其实包括了将Fisher与小Pearson-Neyman两个传统强行放在一起这样行为(这一点不止在心理学中如此,在许多使用NHST的学科中都这么强行使用)。

the lady一书中,还提到了我在另一本书(The Emperor of All Maladies : A Biography of Cancer)中见过的一个内容:关于吸烟与肺癌的关系。Fisher作为一个吸烟爱好者,觉得政府禁烟是对公民吸烟自由的干涉,也写过文章来批判过一些支持吸烟与肺癌关系的研究(他的批评是很在理的,因为有些研究中确实存在着数据挑选和出版偏见等问题)。但是1959年,一个叫玉米地的人(Cornfield, J. )用30多页的文章,对多个实证数据进行评估之后指出,吸烟与肺癌的关系不可否认,他用的方法,现在在医学里面可以被称为meta-analyiss / systematic review,我一般称为元分析。Salsburg 在 <the lady>在讲述这个问题的时候,解释说这个问题触及到统计学的一个核心问题:我们如何能够从数据中进行因果推断?严格地讲,现在我们在心理学研究中所进行的实验能够进行因果推断其实还是很值得商榷的,不过我们自己就这么说而已。因果推断这个问题,也许现在仍然无法非常完美地解决。

Salsburg 在最后一章中,也提出一些非常深刻的问题,包括概率在真实生活中到底意味什么,人们到底能否理解概率这个概念等。这些问题相当具有哲学的意味,因为我们似乎对这些问题形成了某种不清的共识,说起来好像每人人都知道概率是什么,但却无法进行严格地定义。包括我们在自己的研究中也是如此,连p < 0.001意味什么,也是好像知道但并不准确知道的。这种我们所默认的共识,其实在心理学中似乎专门有人研究吧,类似于数学心理学之类,研究人们如何理解数字之类的概念,但我并不太了解。关于这个默认的共识,Salsburg提到了科学范式的转变:从经典力学的机械决定论到一切都是概率分布(C. R. Rao的statistics and truth基本上就是在讲这个),是一次巨大的变革。这一点与《量子力学史话》中提到了是一致的,这个转变在物理学中是最为明显的。但是问题在于,现在以概率分布为基础的这种思维方式,似乎也碰到了许多问题,至少它在很多领域很难提供有用的提导(或者是这些领域的统计还没有学好?)。Salsburg指出,如果我们再一次变换思维方式,从以概率为基础的方式,跳到另一种更好范式中去,也许会给科学带来另一次革命。对于这一次革命,拭目以待。

这本书里,当然提到了贝叶斯与频率主义之间分歧,不过内容并不多。此外,我还注意到一个非常有趣的事实:即使在早期的科学研究中,科学家们就存在着只报告部分数据结果的传统,对于不符合自己理论模型的数据,科学家们的做法是直接无视。这些科学家包括孟德尔,也包括开普勒。这种做法现在在心理学中被称为可疑的研究操作(questionable research practices),它正是心理学研究不可重复的一个原因。想想现在心理学家受到的批判,突然感觉有点不公平了。

52 years这个小册子,跨度相对短一些,问题也更加集中一些。其侧重点便是数据分析中问题。里面提到了许多包括我们心理学/神经成像数据分析中碰到的问题:reproducibility,这个问题已经不用吐槽了,以后专门说吧。另一个有趣的问题是两种不同取向:model fitting vs. prediction,心理学中做的比较多的,还是model fitting,甚至已经到了一种病态的地步了。有人将心理学称为“ 僵尸理论的坟场 (graveyard of undead theories )”( Ferguson & Heene, 2012 ),因为我们一直在发表有部分证据支持但是却没有否定证据(由于出版偏见的存在,否定证据几乎无法发表)的理论,由于没有否定的证据,所以这些理论就处于不死,但是却没有活力(即没有用)的状态。当然,这个小册子中还提到怎样才算是data science,是非常值得一读的。

算一算,今年居然还读完了10多本书,这个速度,应该还算是可以的了。

无法避免的参考文献:

Ferguson, C. J., & Heene, M. (2012). A Vast Graveyard of Undead Theories: Publication Bias and Psychological Science’s Aversion to the Null. Perspectives on Psychological Science, 7(6), 555-561. doi: 10.1177/1745691612459059

John, L. K., Loewenstein, G., & Prelec, D. (2012). Measuring the Prevalence of Questionable Research Practices With Incentives for Truth Telling. Psychological Science, 23(5), 524-532. doi: 10.1177/0956797611430953

Leave a Reply

Your email address will not be published. Required fields are marked *