Categories
网络新发现

又来用数字挑逗民意

昨晚看到一篇广为流传的房奴文章,比如网易上转载的,实在是让我忍无可忍,决定抄起笔来对付一下这种用数字挑逗民意的行为。真受不了~~~

首先这类文章都会有一个很鲜亮的标题,比如这里的“三代房奴面面观:一代赚满 80后才是真正房奴”。房奴,80后,这两个词加起来就够吸引眼球了,还有“三代”,真的是三代通杀。其实我也没资格批评别人,前段时间写个SAS笔记还搞个“七天搞定SAS”这种噱头,明显动机不纯。

不过题目吸引人也就罢了,正文读下来八成要让人义愤填膺一番。感觉自从今年春天借给松鼠会做讲座的机会,看了一眼现在的新闻之后,就对各种挑逗的方法有了更强的免疫力。

挑逗民意最最典型手段就是以“个例”代替群体。这句话怎么说呢,其实就是不断的举出各种极端的例子。比如这篇文章,对于三代人,各找了一个代表:

70后:于先生

-年龄:35岁

-职业:某金融行业公司品牌策划室经理

-房产:南三环外丰台西马厂区域两居

-2007年购买时单价:6500元/平方米

-2012年该项目二手房单价:约29000元/平方米

35岁的于先生说,目前为止,自己还是一名房奴,但相比2007年买房那会儿,已经轻松和洒脱多了。

80后:陈女士

-年龄:31岁

-职业:广告公关公司合伙人

-房产:东城区富贵园

-2006年购买时单价:10000元/平方米

-2012年该项目二手房单价:38000元/平方米

我就看不大明白了,明明两个人才差了4岁,购房也只差了1年,怎么就被归为两代人的代表了?两个人的故事也没什么大的差别嘛,房价都翻了三四翻的样子。这两个其实还好,最让我看不下去的就是最后一个90后的例子:

90后房奴:生活乐趣才是王道

-人物:赵悦

-年龄:22岁

-职业:资产管理公司销售

-房产:朝阳区小悦城

-2012年4月购买时单价:37000元/平方米

-2012年该项目二手房单价:38000元/平方米

将90后这一代称作房奴可能并不准确,他们中的大多数人刚刚念完大学,但已有不少人也挤进了买房大军。但相对于80后的不堪重负,90后房奴更加轻松,从来就没觉得这是他自己需要承担的。

赵悦是一个重庆姑娘,2011年在英国念完书便来到了北京,父亲是重庆一家国有企业的老总,靠着父亲的关系,她很容易就在北京一家资产管理公司找了一份工作,每月薪酬将近8000元。

赵悦告诉记者,回国没几个月,家里就掏钱给她在朝阳的小悦城买了一个小公寓。这个楼盘位于朝青路上,距离年轻人扎堆的大悦城只有800米,那里聚集着优衣库、H&M等潮店,还有天天人满为患的各种麻辣香锅。“买这房子主要还是因为公寓不限购,而且一个人住也够了。”

赵悦选中商住两用的公寓不在限购范围之内。按照当时的房价,40平米的loft,单价38000元左右,一套房子150多万,不过这样的产权只有40年。“我其实对房子并没有感觉,从来也没觉得回国之后就要买房子,是父母觉得应该有个固定的房子。”

家里为她付了8成首付,只是象征性地贷了一点款,这是因为父母不希望赵悦花钱“月月光”。现在,赵悦每个月要还2000多块钱房贷,这一还款额在北京这样一个城市并不高。但即便是这样,赵悦还是觉得钱不够花。看看赵悦的生活账单,几乎80%钱用在了娱乐消费上,而她自己永远都不太清楚钱到底花到哪里去了。

由于小悦城还没有交房,赵悦在离金融街不远的官园租了一套精装一居室,房租5000元。这里几乎成了金融街的后花园,聚集了大量在金融街上班的小白领。如果全靠赵悦的工资,8000的工资交完房贷、房租,就剩下不到1000了,这点钱还不够她打车的。

赵悦父亲对她比较严厉,但她母亲则更宠爱她,直接给她交了一年的房租,即便这样,赵悦还是寅吃卯粮,经常刷爆信用卡,母亲经常替她还款,还时不时地暗中接济她一些零花钱。

对于国人热衷的房子,赵悦觉得有些不可思议。她自己数了一下,父母的房子、爷爷奶奶的房子加上购买的小公寓,在北京、重庆总计有六套房子。“我都不明白还不够么,我没法理解大家为什么这么热衷于买房子。然后把所有的钱都用来还月供,而每天的日子都过得惨兮兮。”

看看这些数字: 月收入8000(不算低),房租5000,贷款首付80%...一个个都是让人瞠目结舌的数字。通篇下来,90后被描述成了一个彻头彻尾的啃老族和富二代。可是,我们都知道,举例是最常用的论述方法,可是也不能总找最极端的例子吧?田忌赛马的道理大家都知道,总不能拿最差的和最好的比吧?

只是想问几个问题: 70、80后就没有月光和啃老族了么?70、80后在20出头的时候(现在90后的年纪)就不会寅吃卯粮么?拿70后的经理和80后的合伙人,跟一个90后的小销售比,这样公平么?

好好的文章,就从来不能保持客观。相比而言,有时候我觉得CCTV的新闻采访靠谱多了...纵是这样大家都在不停的咒骂。哎,新闻什么时候能保持中立性呢?

Categories
网络新发现

Coursera上的R语言课程

今天登上Coursera一看,随便点开几门课居然都是用R来辅助的...R是什么时候悄悄的渗透到这么多大学和行业的哇?孤陋寡闻了呢。

入门的,如专门的数据分析计算,有一门Computing for Data Analysis,是时长为4节的R语言课程。讲的貌似比较基础:

This course is about learning the fundamental computing skills necessary for effective data analysis. You will learn to program in R and to use R for reading data, writing functions, making informative graphs, and applying modern statistical methods.

还有一门类似的,Data Analysis(居然是Johns Hopkins的生物统计研究生院一年级的课程):

This course will focus on how to plan, carry out, and communicate analyses of real data sets. While we will cover the basics of how to use R to implement these analyses, the course will not cover specific programming skills. Computing for Data Analysis will cover some statistical programming topics that will be useful for this class, but it is not a prerequisite for the course.

当然,基础的统计课程也是R的天下了:Statistics One

Statistics One also provides an introduction to the R programming language. All the examples and assignments will involve writing code in R and interpreting R output. R software is free! It is also an open source programming language. What this means is you can download R, take this course, and start programming in R after just a few lectures.

经济与计量、金融计算自然也不能免俗...Introduction to Computational Finance and Financial Econometrics

Learn mathematical and statistical tools and techniques used in quantitative and computational finance. Use the open source R statistical programming language to analyze financial data, estimate statistical models, and construct optimized portfolios.

自然还有类似的金融课程:Financial Engineering and Risk Management

With regards to programming, we have designed the course so that all required "programming" questions can be completed within Excel. However some questions may be easier to complete using Matlab, R, Python etc.

然后居然还看到社会网络分析也是用R来辅助的:Social Network Analysis,这里有我最喜欢的Gephi和R,咿呀呀,不奇怪的嘛,好歹我也是研究了SNA那么久了呢。

We will be using Gephi for visualization and analysis. The interactive demonstrations will be primarily in NetLogo, which you will be able to access through your web browser. If you would like to complete the programming assignments, which will be done in NetLogo and R, NetLogo is freely available here and R is freely available here.

显然这远远没有结束...生统方面,Mathematical Biostatistics Boot Camp自然也是用R的:

临床上也是...Data Management for Clinical Research

  • What resources will I need for this class?
    For this course, you will need: 1) an Internet connection; 2) software package capable of generating table-based CSV files (e.g. Microsoft Excel, Google Docs, Numbers); and 3) and an install of the open-source R programming platform.

好吧,我已经不奇怪会看到更多的了。这两年业界对于R的需求井喷,绝对跟学校里面的教育脱不开干系。不过如果我只是一味列举而不是比较,那岂不是有违统计学风范?R跟C或者Java比显然没有意思...不是做一件事儿的嘛。SAS的结果只有一门,Passion Driven Statistics,我猜很大程度上是这东西不免费,不能让每个学生都有的用;Matlab就多很多了,主要是Matlab的计算确实强大,其他的跟它确实没法比啊(至今我写模拟还是喜欢在Matlab里面写矩阵运算...R里面涉及到无路可逃的循环真的是让人忍无可忍),目测有9门课程使用。注:Stata结果为0,哎,真的是打不过免费软件啊。

赘述完毕...

 

Categories
读书有感

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(五)

鉴于我上周写的[笔记(四)]让很多人反映太枯燥、太无聊(全是公式...可是这就是笔记嘛,又不是写科普文),我努力让这周的笔记除了公式之外多一点直觉和应用层面的点评。

其实[笔记(一)(二)]中说了很多回归和分类器的不同了,那么在经历了线性回归方法之后,就来说说分类器好了。我原来一直觉得回归和分类器没有什么本质不同的...主要是最常用的分类器logit和probit都是我在学计量的时候学的,那个时候老师只是简单的说,这两个和OLS都是一致的,只是我们想让预测值在0~1之内所以做一下变换。而且我们那个时候也不叫他们分类器,而是叫他们“离散被解释变量模型”。前几个月的时候,看data mining的东西,看得晕晕乎乎的,就跑去问精通此类模型的同事MJ,让他跟我科普了一下午为什么这两个模型大家更经常称之为分类器...汗颜啊,那个时候我才知道原来machine learning是先分supervised learning and unsupervised learning,然后才是 regression v.s. classification, and clustering...疏通了脉络之后,再看《The Elements of Statistical Learning》这本书,就觉得顺畅多了。以前只是零零散散的接触一个个孤立的模型,没有找出一个脉络串起来过,自然也就不知道分别适用于什么场景。

其实我挺想说的是,从econometrics到data mining,远远没有想象的那么简单。数学工具上或许很顺畅,但是思维上的转变还是需要时间和实践的。真是为难坏了我这个学经济学出身的孩子(其实话说回来,我好好的不去研究经济学,好奇什么data mining呀~只能聊以一句“殊途同归”来搪塞自己,对嘛,反正都是doctor of philosophy, 只要是科学,本质的思考方式应该是相通的)。不过搞清楚之后,还是觉得很好玩的——以前是雾里看花,觉得什么都漂亮;现在渐渐的能够分清楚这些美丽之间的差异了,也算是个小进步吧。

再有个小废话...记得上小学的时候,老师问大家“长大了想做什么呀?”,我们总是会特别有出息的回答“科学家~”。那个时候有门课叫做《自然》,老师总给我们讲各种各样的发明,让我们一度觉得这个世界上的问题都被解决完了,还当什么科学家啊。然后老师就给我们讲哥德巴赫猜想,大意是世间还有那么几个悬而未决的皇冠问题,等待大家长大了去攻克。后来,越读书越发现,有那么多问题人们是不知道答案的,只是从 ambiguity -> uncertainty -> possibility -> probability -> certainty (law)一步步的走下去。有那么多问题,其实都是悬而未决的哲学问题,等待着聪明的大脑去回答。这也是越读书越觉得兴奋的缘故吧,越来越多的时候老师会被问倒,然后说“不知道”...然后好奇心就又开始勃勃生长...然后又发现更多的很好玩但没有答案的问题...周而复始,有意思的很。

-------满足大家的八卦之心之后,笔记开始-------

线性分类器

对应原书第四章。

先是来一点直觉上的东西:分类器顾名思义,就是把一堆样本归到不同的类别中去。那么这类模型的几何直觉是什么呢?很简单,空间分割嘛。最直白的,我们有一群人,组成了一个大的群体。然后现在要把大家归为男女两类,那么空间自然就是被分割为两个子空间——男和女了。

线性分类器是什么呢?分割男和女的时候,可能分割是三个一群,五个一簇的,所以非要画分割的界限的话,八成是山路十八弯的...我们以前说过,这类的模型问题就是可能复杂度比较高(比如参数的个数较多),导致就算训练误差小,测试误差不一定小。所以呢,我们希望这个分割界限是直线的(二维平面下)、或者平面的(三维空间中),或者超平面的(高位空间中),这样就比较清晰明了的感觉了。

线性分类器:logit模型(或称logistic regression)

这里也不完全是按照吴老师上课讲的东西了,因为回头再看这本书会发现书中还有一些很好玩的直觉很强的东西。错过不免可惜,一并收纳。

首先换一下记号~我们在前面都用代表被解释变量,从现在开始对于分类问题,我们改用

logit模型下,考虑最简单的分为两类,我们有

所以有

这样,分别属于这两组之间的比例就可以找到一个线性的边界了(注:log为单调变换~不影响结果)。这样变换的目的其实无非是,保证,而且两个比例之间存在着一种线性的、或者可以通过单调变换成为线性的关系。类似的当然是大名鼎鼎的probit模型,思路是类似的。

损失函数

显然线性分类器下,在有很多类的情况中,损失函数定义为OLS的残差平方和是没有多大意义的——分类取值只是一个名义量。所以,这里用0-1损失函数:如果,那么损失函数=0;否则,就是没预测准,损失函数=1。写为数学形式,就是损失函数定义为:

所以我们的目标就是,最小化损失函数的期望:

(条件期望迭代)。

LDA:linear discriminant analysis(贝叶斯意义下)

从贝叶斯的角度,我们有

为k出现的概率。

假设X服从联合正态分布,那么我们有

再假设协方差矩阵,所以我们比较两类的时候有:

这样就形成了一个x的线性方程,所以我们找到了一个超平面,实现了LDA。

实践中我们需要估计联合正态分布的参数,一般有,其中为分类k出现的样本数;,即这个样本中,x观测值的平均数;

Fisher视角下的分类器

Fisher提出的观点为,分类器应该尽量使不同类别之间距离较远,而相同类别距其中心较近。比如我们有两群,中心分别为

,那么我们希望尽量大,同时群内方差

尽量小。通过对x进行投影到,我们可以化简的得到

。这样一来,我们的准则就是:

由于是正定阵,所以我们可以进一步写为

其中的特征向量。最终可以求的,最优的正是的最大特征向量。

说实话,我对LDA(或者QDA)的理解都非常有限...这本书里面还有一节说到LDA和logit怎么选,我也是大概看了一下没有特别的看明白...笔记只是如实记录,海涵。暂时还不知道讲到Fisher到底是想讲什么...理解力好有限,唉。

------最后的碎碎念------

除了统计学习精要,Coursera的Model Thinking也终于结课了,做完了期末考试卷,感觉心里空空的。这门课真的是开的非常深入浅出,覆盖了这么多学科、问题的各种模型,非常有助于逻辑思考和抽象。只是多少有些遗憾的,很多东西来不及细细回味,听过了视频就忘了,没有努力的去理解那些模型背后的逻辑。这也是导致最终的期末考试做的不怎么好的缘故——我不想去翻课堂视频或者笔记,只是想考验一下自己对于这些模型的理解和记忆能力。事实证明,除了那些跟经济学或者数学紧密相关的模型,其他的都多多少少记得不是那么清晰了。过阵子应该好好整理一下这门课的笔记,算作是一个良好的回顾吧。

不知道为什么,工作之后再去学这些东西,真的感觉力不从心的时刻多了很多。这半年只有这么区区两门课,就让我觉得有时候不得不强迫自己一下赶上进度,强迫的手段之一就是在落园开始写连载(大家容忍,谢谢~)。不过为了保持一个基本的生活质量,还是应该不时看看这些新东西的,要不生活都腐朽了。

Categories
Uncategorized 事儿关经济

R会议小记

今年的R会又热热闹闹的开了两天,一切进行的还算顺利,没有大的波折。大家玩的很开心,各种旧友重逢相见恨晚按下不表。只说几点我的体会:

1. 数据挖掘越来越热,却越来越觉得泡沫。今年R会议创纪录的收到了接近500人报名,实际到场领取材料350人。会场一直有人需要站着听,这是以前没有的。R这两年越来越热,说明业界的需求上来了,用R的人越来越多毕业了,进入企业了。然而听了很多演讲,却没有感觉有让人“惊喜”。大家在重复的炒有限的东西。不见新意。

2. 工具越来越热,只能说明用的人越来越多,而不见得是用法越来越聪明。大数据热的一塌糊涂,大家关注的却只是怎么能实现计算,而少有从根本思想的角度提出创造性的方法的。这让人不免觉得疲惫。

3. 林大师兄说的有句话让我印象深刻——用复杂的方法解决复杂的问题那是做研究,用简单的方法解决复杂的问题是在业界。一路看来,被业界认可的方法,大都是simple and elegant的,只可惜翻来覆去就那些,看久了就审美疲劳了。

4. 大多数分析只能说是typical的完成任务,有灵性的分析不多。张翔的“短文本分类实践”在这个意义下,是可圈可点的有灵性的分析之一。在现有的算法上,如何聪明的排列组合优化改造,这不仅仅考验的是分析者对于模型的理解,更多是对于业务需求的洞见。再好的模型,也得多少按需定制一下,否则总让人觉得空洞无物。

5. 机器学习是小聪明而不是大智慧。我这么说坐等被骂,不过确实是思喆大哥的一句点评醍醐灌顶——机器学习的人从来不关心假设检验,尤其是对于分布的假设。反正计算机可以算,那么就去算好了。很多算法直觉上过得去,就可以了。我总感觉这东西,要么大家玩够了破灭一下,要么有人从头建造一些夯实的基础,真正繁荣。现在还是一个初生牛犊的混沌阶段吧。比较好的应用,除了google发起的那几类,大概也很难有本质上的突破了。

6. 业界是 short sighted,这个不用多说了。

7. 我对整个数据分析的行业未来持负面预测。有泡沫的感觉。可是,明明自己还在混这口饭吃...不过至少这口饭还能吃个十年二十年吧,不怕不怕。

8. 以前总觉得建模什么的最重要,最刺激,最有成就感。现在感觉,其实很多时候解决问题的能力大家都有,而发现问题却不是每个人都擅长。也劝最近打算从学校里面出来的朋友们,不要一上来就跟招人的企业说“我希望做统计建模”blablabla...其实有的时候那些fancy的模型提高的可能只是最后的5%,而为此牺牲的效率有可能有着更高的成本。至少我现在,有点越来越问题导向了。还有,其实很多时候,在学校里大家对于模型的理解还都是很肤浅的,纸上谈兵的。其实自己根本把握不住那些东西。最近好多次深深感觉,我以前觉得自己熟练把握的很多模型都不见得可以迅速的应用到实际的业务场景中去。在不断的跟同事、老板、partner讨论的过程中,才是真正的去深入的理解那些模型的过程。所以,一句聊以自勉的话:还是从简单的做起吧。

几乎没说几句好话,见谅。好玩的东西就是那么多,天天玩天天看不免觉得疲惫。不过平心而论(与我的工作单位无关),eBay对于数据的理解和应用整体水平绝对是行业前列的。能把一个数据分析的大问题break down到若干几乎独立的小问题,这就说明整体的框架已经成熟并足以支撑业务了。这样的情况下,作为个人可能接触的好玩的事情会越来越少,因为几乎相似背景的人都可以很快的胜任日常的工作(这也是我对大企业最佩服的一方面,分工确实细致,有利于提高整体效率),另一方面也是学习如何化整为零的好去处。每个人都有自己想要的人生,都会选择适合自己的地方。只是这一次很多人一致评价,觉得我来了eBay之后更快乐了——这怕是最好的褒奖了吧。

----对于未来R会议的期许-----

我们号称要做“学术会议里面最文艺的,文艺里面最学术的”,那么总要多多的有些有灵性的分析。R语言基础培训可以淡出R会议的舞台了。

此外,力争联系更多的大牛~要有学术会议范儿嘛 ^_^

Categories
读书有感

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(四)

照例继续本周笔记。这次我没啥废话了...

--------------笔记开始---------------

投影矩阵与消灭矩阵

首先是上次没证的若干OLS性质。基本都是公式。我就照抄原来econometrics做的笔记了。权当复习了...对计量有兴趣的、线性代数还不错的,建议去看《Microeconometrics- Methods and Applications》(?A. Colin Cameron / Pravin K. Trivedi )。

先定义两个矩阵,这两个矩阵会在某种程度上save your life while learning econometrics...投影矩阵和消灭矩阵。

复习一下,OLS估计量是 ,然后对应的Y估计量是。所以,我们定义投影矩阵P为,这样就有了。也就是说,我们对Y进行了一次投影,然后得到了一个估计值。当然定义投影矩阵并不仅仅是写起来比那堆X简单,而是投影矩阵本身有着一系列良好的性质。

我们先来看把P投在X上会怎么样。显然,,也就是说P不会改变X的值(本来就是把一个东西投到X上嘛~自己投自己怎么会有变化的嘛)。

然后呢,对P进行转置,则,所以接下来

再定义消灭矩阵M。很简单,我们定义M为,其中I为单位阵(对角线元素为1,其他为0)。这样M又有什么性质呢?显然,也就是说M对Y的效果是得到误差项。而与此同时,M对于X的作用就是,所以称为消灭矩阵嘛。继续,进行转置,则,所以我们还有

OLS估计值的方差

再次友情提醒,X不是随机变量,所以不要跟我纠结为什么没有条件期望公式之类的东西...

扰动项服从时,或者大样本下,OLS估计量的方差为:

这里为样本方差,所以其分布为: 。这样一来,就有了一个t检验:

大样本下,就直接用正态检验好了。此外,如果我们进一步的有更多的同时检验的约束条件,那就是联合检验F。这个就不赘述了...

高斯-马尔可夫定理

顺便还证了一下高斯-马尔可夫定理...这个不像OLS,每次我可记不住他的证明,每次都是现翻书...

我就直接抄wiki了。

选择另外一个线性估计量,然后C可以写为 ,则D为k*n的非空矩阵。

那么这个估计量的期望是 :

所以,为了保证 无偏,则必有 .

继续求方差:

是一个半正定矩阵,肯定要比大~得证。

变量选择与收缩方法

为了降低测试误差(减少函数的复杂度),有时候会放弃无偏性而进行变量选择。这里首先就是Ridge OLS(岭回归)。还是算一下这个东西好了。

岭回归就是对估计量另外加一个约束条件,所以很自然的想到拉格朗日乘子法。ridge regression的目标函数为,

可以重写为

这样我们就得到两个一阶条件:

,所以有:

这里还可以看出,的取值都是对应的。

Lasso则是把改成,已经没有解析解了...

至于为什么叫收缩方法,可以将X进行奇异值分解,然后可以得出的方差将变小...我就不写证明了,感觉这一块儿讲的也不是很透彻。