机器学习 – Page 4

今天难得的一点专注时间，打开了「数学之美」，实体书的阅读果然还是比较舒服。

和Google黑板报版相比，正式出版的版本的确增加了不少的内容，如果想深入的多了解某个算法一点，会合适的多。不过某种程度上感觉，没有黑板报版那么引人入胜了，写作风格变得更严谨了。

书不是很厚，加上排版比较宽松，其实看起来还是蛮快的。看到后面，突然对“条件随机场”这种东西产生了莫名的好奇感，然后匆匆的看过去，还是蛮好玩的。在过去的一年中，慢慢的揭开了自然语言处理的各种面纱，这个领域还真的是蛮好玩的，也看到那么多聪明的中国人在此不懈耕耘造就的各种神奇。比如，我用来打这篇日志的输入法——经过很长一段时间的训练之后，他越来越聪明的可以捕捉到我想说什么，打字的过程已经不会影响到思维了。对比以前用智能ABC的日子，突然觉得生活真的是美好了许多。而这一切背后的辛勤劳动，都离不开算法的支撑和我们对于数字信息理解的深入。

此外，还顺便看了一眼奇异值分解（SVD），以及MapReduce，反正对于各种可以降低算法复杂度的思路，都是很能裨益工作的。曾经很多人不知道“线性代数”这门课有什么用...从我个人经历来说，从学完它就一直在用，各种用。简洁的神奇。

还是挺好的一本书，就是浅了一些，有些深入的东西可能确实比较难以直观的描述出来。Machine learning果然还是需要下苦工的一个领域。

在慢慢火车旅途上，看看书还是不错的消遣。第二个kindle也挂了之后，只能借助ipad勉强看看书了。还好吧，至少还能集中注意力，不会手贱的不停刷微博什么的。

离开上海之前，两天奋战看完了备受推崇的「三体」三部曲，不禁对作者的想象力、天文、物理功底所深深折服。总有一段时间觉得自己的思维格外的开阔，喜欢这样智力上的挑战。而接下来打定主意在路上看的，第一本就是说「machine learning for hackers」，听说是R与数据挖掘教程之一，很多人多次提及过，思喆大哥貌似还评论过，却忘了大家是褒是贬。当然，这其中还有一层原因是，适合自己的才是最好的，就像我从来不能如同在经济学家面前声称自己学过经济学一样，在统计学phd面前号称自己学过统计学（cannot speak the statistics language well）。根基差太远。

然而看过了这本书之后，只想问一句，are you kidding?通篇都是各种回归就罢了，还常常一整页就一幅图（至少我看的版本中如此），每个例子都有配图（当然我不否认可视化对于帮助理解数据的意义，但亲啊，是不是有点多了啊？），这样稀哩哗啦的居然凑了300多页。我只想说，如果我的小册子也这么写，突破500页指日可待啊。

好吧，回到价值评价。这本书信息量真的不怎么大。我不是machine learning科班出身，没学过这东西的发展史，不知道这些模型的历史地位和演化过程，只是断断续续、这里一点、那里一片的接触了一些模型（当然回归模型除外，计量的招牌菜啊，虽然我一度觉得我计量学的也不咋地）。看完这本书，先是简单的线性回归，然后polynomial拟合，然后是logit回归等等，中间加上一些莫名其妙的检验指标，各种看着不爽。至少，以一种检验和model selection的形式出现好不好，显得多少严格一点嘛。

后面是支持向量机，然后居然还简单的涉及了sna。不过当我看到gephi的时候....好吧。这作者真心喜欢可视化啊。

说到机器学习，可能我没什么评头论足的资格。不过仗着最近看了一下「数学之美」（虽然只是06年的google黑板报版），还是觉得对这个领域的大致思路有所了解的。关于learning，个人认为除了各种回归等常规prediction之外就是bayesian规则下的模拟了。后者的话，个人倾向于＂按需定制＂，模拟还是好好的从头开始写代码比较稳妥。搞不懂这本书的思路，不知道target group是哪群。

有的时候各个学科还真是殊途同归的。我所接触的很多学科的方法，无非的指向只有一个：如何从信息中提取信息，或者更简单的，如何降维。从这个角度看，经济学也没有落后太多嘛，只是出发点和原始信息集不一样。其实，平心而论，经济学的思维方式基本是数学分析（演绎法）+统计学（归纳法）的结合，虽然到个人层面上各有所侧重，但还是很大程度上相辅相成的，没法一条腿走路。所以，有志于挑战自己智力和创造力的同志们，可以偶尔学学经济学哦~嘻嘻。绝对是系统的对思维方式和分析能力的训练。