五千年(敝帚自珍)

主题:【原创】抛砖!模式识别和机器学习、数据挖掘的区别与联系 -- 永远的幻想

共:💬65 🌺337
全看分页树展 · 主题 跟帖
家园 (七)对几本经典著作的评注3

最后3本,打算先介绍2本俺没细看完的。下一次再用我最喜欢、也看得最仔细的《the Elements of Statistical Learning》 (EoSL)压轴。

《Pattern Recognition and Machine Learning (Information Science and Statistics)》(PRML)

英文原版

点看全图

外链图片需谨慎,可能会被源头改

作者个人网站: Christopher M. Bishop 上面有题解。

国内没引进。但是人大经济学论坛和CSDN上有PDF下载,淘宝上好像也有卖打印版的。

优点:

1. comprehensive。即使是打1 2星的读者,也承认这书相对其他同类书里算是好读的了。毕竟,让没接触过的人一下子把脑子切换成用概率来建立数学模型,描述数据,不是太容易的。能用尽量清楚的语言描述清楚已经很显示作者功力了。

2.权威性和读者口碑。作者个人网站上有他的其他著作,不赘述了。关于口碑,不止一个读者在其他书的书评里提到 这本《PRML》和之前第一本介绍的《Pattern Classification》以及下次再说的《EoSL》,并称为3本最pop的ML书。而Pattern Classification 的第1版是1973年,第2版是2000年;《EoSL》第1版是2001年,第2版是2009年;都比2006年才出版的《PRML》出得早。能和这2本并称,可见这本书的在读者心中的地位。

插一句:这种700多页难啃、但又必须通读的理论书,我还是觉得读pop的比较放心。即使暂时读不懂,也不要紧,反正硬读下去就是了,准没错。我不是太敢去碰生僻冷门的著作,一个怕读半截发现不行,浪费时间,一个是怕读完了,结果把路子走野了。

缺点:

1.缺实际例子。Amazon上给1、 2星的大多是因为这个原因。好几个读者说:不要着急,08年出配套的MATLAB示例。结果到现在作者个人网站上也只字未提。

2.主要是以贝叶斯推断的框架来描述问题的。有什么样的世界观就有什么样的方法论,对其他方法介绍得就很少了。难怪不止一个读者说:This books should be called "My personal unifying theory of Machine Learning and Pattern Recognitionusing the Bayesian Approach".

3.数学要求+textbook。因为缺实际例子,所以图就净是示意性质的简单图了。而贝叶斯方法少不了大量的公式和积分符号,这些是工科人最头痛的。最喜欢看能编程实现的伪代码,实在没有,看见sigma求和符号也比积分号舒服点,起码知道这就一个for循环的事。

没把这本放第一本的原因主要就是1 2了,其实2也不能算缺点。

《Semiparametric Regression (Cambridge Series in Statistical and Probabilistic Mathematics)》

英文原版

点看全图

外链图片需谨慎,可能会被源头改

本书网站:[URL] http://www.stat.tamu.edu/~carroll/semiregbook/ [/URL]。有MATLAB代码。

网上能找到PDF版下载。

这本看得不仔细,稍微简单说说。缺点是03年出的,稍嫌老了。而且是专以回归角度来叙述的,以ML整个领域来说,涉及面不是太广。

优点是comprehensive。我是作为《EoSL》的第5 6章的补充来看的,对Spline有任何不明白的地方就看这个书。

这次就这样吧,下次最终章详细来说压轴的《EoSL》。

元宝推荐:游识猷,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河