Categories
我的生活状态

2012的收获

前一篇偏流水账,就不浪费大家的时间了。

2012的收获大致有:
1. 更多的交流,结识更多新朋友。收益于第一份咨询工作,我学会了如何更好地沟通、让事情更平滑的move on。换位思考是最最宝贵的经验,business最重要的就是和人打交道。受益于新的在eBay的工作,我学会了如何更坚实的结合一个business idea和model,也体会到分析结果对于真实商业行为的影响。每次看到managers的summary sides都让我由衷感慨一下。受益于各种会议沙龙活动,结识了很多不同领域的朋友(就不一一列出了,埋藏感激于心底)。真的,Life is better when shared! 好享受这种互通有无的过程,真诚的沟通一直让人感动。人生何处不相逢,希望有更多的机会可以和这些好朋友们学习。

2. 知识的增长。skill层面,在诸多大牛的熏陶下下,耳濡目染的用R鼓捣起来文本分析,很有趣;从老板和同事那里学了很多SQL技巧;连续七天攻克了SAS。课程方面,跟下来了coursera的model thinking和复旦的elements of statistical learning。另参观了若干博物馆,文化知识稍稍增长。

3. 读书。 抄一下豆瓣的list,几本印象深刻的书:elements of statistical learning(cos论坛大牛推荐),rework(yihui推荐), presentation zen(impress.js推荐), 什么是数学+高观点下的初等数学(周涛推荐),浪潮之巅+数学之美(一位做sales的朋友推荐),the little sas book, 怪诞行为经济学(一位老友推荐),中国哲学史(大学存货),另附若干R书籍。小说方面有印象的就是三体了,三个不眠不休的整日搞定(辞职之后进藏之前),再就是暑假恶补了王家卫的电影(邻居推荐)。

没了...2012还算丰盛,希望2013节奏再快再舒适一点,和大家一起成长!

-------------------

去年的总结在这里:time-to-change/,硕士毕业时候的总结在这里: a-brief-summary-of-my-master-year/。今年的主题依旧是:chasing my dream。

Categories
读书有感

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(五)

鉴于我上周写的[笔记(四)]让很多人反映太枯燥、太无聊(全是公式...可是这就是笔记嘛,又不是写科普文),我努力让这周的笔记除了公式之外多一点直觉和应用层面的点评。

其实[笔记(一)(二)]中说了很多回归和分类器的不同了,那么在经历了线性回归方法之后,就来说说分类器好了。我原来一直觉得回归和分类器没有什么本质不同的...主要是最常用的分类器logit和probit都是我在学计量的时候学的,那个时候老师只是简单的说,这两个和OLS都是一致的,只是我们想让预测值在0~1之内所以做一下变换。而且我们那个时候也不叫他们分类器,而是叫他们“离散被解释变量模型”。前几个月的时候,看data mining的东西,看得晕晕乎乎的,就跑去问精通此类模型的同事MJ,让他跟我科普了一下午为什么这两个模型大家更经常称之为分类器...汗颜啊,那个时候我才知道原来machine learning是先分supervised learning and unsupervised learning,然后才是 regression v.s. classification, and clustering...疏通了脉络之后,再看《The Elements of Statistical Learning》这本书,就觉得顺畅多了。以前只是零零散散的接触一个个孤立的模型,没有找出一个脉络串起来过,自然也就不知道分别适用于什么场景。

其实我挺想说的是,从econometrics到data mining,远远没有想象的那么简单。数学工具上或许很顺畅,但是思维上的转变还是需要时间和实践的。真是为难坏了我这个学经济学出身的孩子(其实话说回来,我好好的不去研究经济学,好奇什么data mining呀~只能聊以一句“殊途同归”来搪塞自己,对嘛,反正都是doctor of philosophy, 只要是科学,本质的思考方式应该是相通的)。不过搞清楚之后,还是觉得很好玩的——以前是雾里看花,觉得什么都漂亮;现在渐渐的能够分清楚这些美丽之间的差异了,也算是个小进步吧。

再有个小废话...记得上小学的时候,老师问大家“长大了想做什么呀?”,我们总是会特别有出息的回答“科学家~”。那个时候有门课叫做《自然》,老师总给我们讲各种各样的发明,让我们一度觉得这个世界上的问题都被解决完了,还当什么科学家啊。然后老师就给我们讲哥德巴赫猜想,大意是世间还有那么几个悬而未决的皇冠问题,等待大家长大了去攻克。后来,越读书越发现,有那么多问题人们是不知道答案的,只是从 ambiguity -> uncertainty -> possibility -> probability -> certainty (law)一步步的走下去。有那么多问题,其实都是悬而未决的哲学问题,等待着聪明的大脑去回答。这也是越读书越觉得兴奋的缘故吧,越来越多的时候老师会被问倒,然后说“不知道”...然后好奇心就又开始勃勃生长...然后又发现更多的很好玩但没有答案的问题...周而复始,有意思的很。

-------满足大家的八卦之心之后,笔记开始-------

线性分类器

对应原书第四章。

先是来一点直觉上的东西:分类器顾名思义,就是把一堆样本归到不同的类别中去。那么这类模型的几何直觉是什么呢?很简单,空间分割嘛。最直白的,我们有一群人,组成了一个大的群体。然后现在要把大家归为男女两类,那么空间自然就是被分割为两个子空间——男和女了。

线性分类器是什么呢?分割男和女的时候,可能分割是三个一群,五个一簇的,所以非要画分割的界限的话,八成是山路十八弯的...我们以前说过,这类的模型问题就是可能复杂度比较高(比如参数的个数较多),导致就算训练误差小,测试误差不一定小。所以呢,我们希望这个分割界限是直线的(二维平面下)、或者平面的(三维空间中),或者超平面的(高位空间中),这样就比较清晰明了的感觉了。

线性分类器:logit模型(或称logistic regression)

这里也不完全是按照吴老师上课讲的东西了,因为回头再看这本书会发现书中还有一些很好玩的直觉很强的东西。错过不免可惜,一并收纳。

首先换一下记号~我们在前面都用代表被解释变量,从现在开始对于分类问题,我们改用

logit模型下,考虑最简单的分为两类,我们有

所以有

这样,分别属于这两组之间的比例就可以找到一个线性的边界了(注:log为单调变换~不影响结果)。这样变换的目的其实无非是,保证,而且两个比例之间存在着一种线性的、或者可以通过单调变换成为线性的关系。类似的当然是大名鼎鼎的probit模型,思路是类似的。

损失函数

显然线性分类器下,在有很多类的情况中,损失函数定义为OLS的残差平方和是没有多大意义的——分类取值只是一个名义量。所以,这里用0-1损失函数:如果,那么损失函数=0;否则,就是没预测准,损失函数=1。写为数学形式,就是损失函数定义为:

所以我们的目标就是,最小化损失函数的期望:

(条件期望迭代)。

LDA:linear discriminant analysis(贝叶斯意义下)

从贝叶斯的角度,我们有

为k出现的概率。

假设X服从联合正态分布,那么我们有

再假设协方差矩阵,所以我们比较两类的时候有:

这样就形成了一个x的线性方程,所以我们找到了一个超平面,实现了LDA。

实践中我们需要估计联合正态分布的参数,一般有,其中为分类k出现的样本数;,即这个样本中,x观测值的平均数;

Fisher视角下的分类器

Fisher提出的观点为,分类器应该尽量使不同类别之间距离较远,而相同类别距其中心较近。比如我们有两群,中心分别为

,那么我们希望尽量大,同时群内方差

尽量小。通过对x进行投影到,我们可以化简的得到

。这样一来,我们的准则就是:

由于是正定阵,所以我们可以进一步写为

其中的特征向量。最终可以求的,最优的正是的最大特征向量。

说实话,我对LDA(或者QDA)的理解都非常有限...这本书里面还有一节说到LDA和logit怎么选,我也是大概看了一下没有特别的看明白...笔记只是如实记录,海涵。暂时还不知道讲到Fisher到底是想讲什么...理解力好有限,唉。

------最后的碎碎念------

除了统计学习精要,Coursera的Model Thinking也终于结课了,做完了期末考试卷,感觉心里空空的。这门课真的是开的非常深入浅出,覆盖了这么多学科、问题的各种模型,非常有助于逻辑思考和抽象。只是多少有些遗憾的,很多东西来不及细细回味,听过了视频就忘了,没有努力的去理解那些模型背后的逻辑。这也是导致最终的期末考试做的不怎么好的缘故——我不想去翻课堂视频或者笔记,只是想考验一下自己对于这些模型的理解和记忆能力。事实证明,除了那些跟经济学或者数学紧密相关的模型,其他的都多多少少记得不是那么清晰了。过阵子应该好好整理一下这门课的笔记,算作是一个良好的回顾吧。

不知道为什么,工作之后再去学这些东西,真的感觉力不从心的时刻多了很多。这半年只有这么区区两门课,就让我觉得有时候不得不强迫自己一下赶上进度,强迫的手段之一就是在落园开始写连载(大家容忍,谢谢~)。不过为了保持一个基本的生活质量,还是应该不时看看这些新东西的,要不生活都腐朽了。

Categories
我的生活状态

七月的上海

7月7日,上海,已然盛夏。标志:烦躁的鸣个不停的蝉,30摄氏度的早晨八点。

DSC03993

第一个在上海度过的夏天。措不及防。每天坚持着来往12KM之外的公司,只是越来越迷恋五角场的生活气息。

读书,读很多书。清一色的发现自己读过的80%~90%的书籍都跟经济学有关的时候,有点落寞。桌子上摆了好久的《中国哲学史》,连打开的勇气都没有。旁边的一本本数学书却被翻了许多次。悲哀。

写无尽的代码,感慨那曾经用来发散思维的右脑居然慢慢的形成了程序化思维。悲哀。

只是暂时的代价吧。至少,还能维持一种简单的美好的生活姿态。一杯冰饮,几瓣西柚。对付着火烧火燎的喉咙。应景一下,哼一句:

七月七日长生殿,半夜无人私语时。
在天愿做比翼鸟,在地愿为连理枝。

Categories
我的生活状态

读书、写代码

在重温 Competition Policy: Theory and Practice 这本书。我不得不承认,anti-trust一直是一个很有意思的领域,最直接的和业界、经济政策相联。看看这些故事,看看背后的各种出于“市场效率”的考量,真的觉得世界是很美妙的。

没想到这个月会有这么多代码可以写。或许,像我这么一个极度讨厌“重复劳动”和copy、paste的人,思维永远会是,“这东西怎么写代码啊”……可惜啊,当年没好好学C,现在被R惯坏了,什么都用R来做,也越来越懒了。很多问题,一时R解决不了,就只能郁郁的手动处理掉。然后心里在想,“真心的,我会成为一个非常好的research assistant的”……呃,这是不是一个意外的“收获”呢?

有的时候在想,应该如何定义“工作”一词?不断的、重复性的劳动,不厌其烦么?很显然,这不是我喜欢的,虽然明知道很符合亚当·斯密眼中的“分工”。很不喜欢浪费自己的时间,尤其是在做一些让我觉得本科研究生都白读的事情上。这个时候,“完美癖”就显得非常不合适了,看着很多东西就这么流出去了,最后索性任其自由……

哎,很多时候,连别人对自己的误解,都懒的解释了,这么的“顺其自然”好了。或许很多东西,一不值得挽回、二不值得留恋。因此,又何必浪费自己的时间与口舌……有时间,还是多读读书、看看论文吧。

Categories
我的生活状态

单一的色调

或许单调这个词儿就是“单一的色调”或者“单一的音调”的简称吧,不知道英文中的monotone到底是怎么个来源的。总之,单调说明了生活模式的不变,或者说没有什么波澜或者惊喜,只是按部就班的,每日如一。

连续三天,每天泡在学校敞亮的计算机室里面,不知疲倦的写和改paper。记得刚开始的时候觉得mac机真的是很惊艳啊,后来发现也就是这么回事儿,长得漂亮不是就可以靠长相一辈子卖饭吃的。哎!

文章写到最后,真的是越写越恶心,恶心到每天早晨都是被一场关于paper的噩梦惊醒,然后强迫自己继续打开电脑写paper。真的是很无聊哎!人生啊,难道不是应该更加丰富多彩一些的么?这样说来我也有点庆幸不是在读phd了,要不每天都是看论文写论文的,这日子真的,怎么过啊!不知道为什么,开始怀念上学期那种忙忙碌碌奔波于不同的课堂之间的感觉,看来上课还是相对而言轻松的很多啊。这学期,课少了,又经历了一些打击,弄得我现在真的是只想早点毕业早点完事,然后好好的狂欢一些时日。说实话,真的挺怀念大学的时候开始初识经济学那段日子,可以不知疲倦的从图书馆里面一本又一本的把书搬回来,然后一副向往的神情好好敬仰。现在则多多少少有点审美疲劳了?越来越找不到激情了,希望不是我老了。

记得考试的时候总觉得上课的日子是幸福的,然后后来申请出国的时候觉得能用考试解决的东西真的是最简单的(比如gre托福之流),后来出来了发现当年申请的日子还是蛮幸福的。总之,一层一层的,抽丝剥茧似的,体味着生活变得越来越艰难的滋味。了解的越多,就越不知所措了。有的时候真的是,井底之蛙也不是一件坏事——有些事如果从来不曾意识到,就不会去比较, 也就不会有各种比较带来的烦恼了。从这个意义上而言,站的高看得远也不尽然是一件好事情,毕竟人难免是贪心的,看到了就想要,哎。

最近看了很多很多书,主动的或者是被动的,但是缺乏与人交流的畅快感,经常只能半夜在自己屋子里面瞎兴奋一气,感慨这个作者这么这么有才华,或者这个故事居然可以是这样的。当然我不是指纯文学层面的东西,只是发现现在自己越来越能忍受文字本身的无聊,静下心来看故事了。记得小时候,从来都只是看情节的,最爱的自然是武侠小说之流。然后就是诗词,另一个极端,简短抽象,不过可能更多的是一种心灵的抒发和喜欢沉浸在想象中的那种美好吧。终于发现人还是一种群居的动物,总得有人经常说说话才行,要不也不会很多人总是在忍不住的泡校内之流了——孤单啊孤单啊。从这个意义上来说,现在的我也可谓是孤单的, 要不怎么会有心情在这里码字?

不知到周五晚上大多数人都在干什么?大概是各种各样的狂欢吧。其实狂欢只不过是一群人的孤单——聊以自慰。

不过无论如何,都会有个结果的。六月,嗯,流光溢彩吧。