Category: 经济、IT观察与思考

瞬间变3G版iPad

好吧，其实作为一个一直在用3G的人这篇post多少有些无聊...不过事实是，如果很不幸的你的手机没有作为wifi热点的功能，那么其实他也是能作为一个3g路由器帮ipad或者电脑上网的...只不过，我们不用wifi协议而是蓝牙罢了...

今天闲着无聊，就试了试用蓝牙连接ipad和我的手机，果然顺利的连上了。然后，没有什么额多余的设置，ipad就开始用手机的网络了...真是简单啊。同理，laptop也可以这么干。经过了若干年的发展，蓝牙貌似已经成为了标配，虽然用的人越来越少了（除了蓝牙耳机？）。我有点百无聊赖嗯...

最后，实测速度是Ok的，基本反映了3G网的速度，看个优酷视频还是可以的。看来瓶颈不在蓝牙这里嗯。

最后只是想说，如果碰巧ipad没有插sim卡或者不能插，又没有wifi信号覆盖，手机还是可以支援一下ipad的。同理，出国游玩的时候买一个sim卡就可以了，手机和ipad还是可以比较简单的共享的。当然，现在那些先进的可以直接设置个人热点的手机就不用这么折腾了，iphone和ipad也不用这么折腾了...不喜欢智能手机的孩子可以参照我的办法呃。anyway总是一个option吧。

Tags 3G, 3G上网, iPad, wifi, 手机, 无线网络, 蓝牙

读书有感

降维模型若干感悟

前几天集中爆发了一些email，直到最后和Frank兄提起，他说我应该去看一下 Adaptive Lasso，我才终于痛下决心开始看这方面的东西。先说说为啥开始看Lasso。

需求。大数据时代，任务有很多：

理论层面，要有适应大数据的模型。一方面是数据量的增加（表现为个体记录的增长），一方面是数据维度的增加（简单的说就是回归方程右边的变量），让大数据这个任务变得格外艰巨（p.s. 这个不是我总结的，照抄上次ShanghaiR沙龙时候Ming的原话...话说我别的没记住，就这句话深深的印在脑海了，哎~）。
- 数据量的增加，对应的是大样本理论。这个好玩的有很多，暂且不表。
- 数据维数的增加，则需要相应的降维模型。你总不能在回归方程右边放入几千个变量，“维数灾难”啊...所以变量选择是个很好玩的话题。
应用层面，一个模型性质再漂亮，你也要能算得出来才行是不是？
- 首先就是要有个好的算法，比如在「统计学习那些事」中提及的LAR对于Lasso的巨大贡献。
- 其次，什么分布式计算啊，并行计算啊，都成为热呼呼的实践问题（当然我还是go against那些不管三七二十一、直接软件中调用模型的。任何一个模型的假设和局限性都是应该首先考虑的，要不真不知道预测到哪里去了呢~）。

好吧，好久没用这么多层级了。只是昨天稍稍理了理思路，顺便写在这里，算作「感悟一」。

然后，说到底统计学还是为其他学科服务的（好吧，我是想说数据不是无源之水，总归有自己的背景，总归有在这个背景领域的人希望借助数据来解决的问题）。那么作为一种empirical method，统计模型关心的是什么呢？在被计量经济学熏陶外加祸害了若干年后，发现它本质还是为了经济学研究的一些目的服务的，所以关注的更多是consistency，大家张口闭口就是“变量外生性”...而这多少有些直觉+经验判断的东西。显然，统计模型不仅仅是计量经济学，昨天看「The Elements of Statistical Learning: Data Mining, Inference, and Prediction」，大致的关于统计模型关心的判断标准的「感悟二」总结在这里：

consistency：这个还是逃不掉的，一致性在大样本下虽然比小样本的无偏要求来的弱得多(plim毕竟比期望算子好“操作”一些)。其实有一段时间我一直很抵触把计量经济学里面的causality叫做因果关系，学习计量模型的过程基本就是保证估计一致性的推导过程...想说的只是，真正的因果关系不是统计学就可以定义的，还是要回到学科本身。consistency更多包含着“internal validity”的味道，即一个结果可以期望在样本本身内重复实现。个人感觉，从经济学理论与实证研究的角度，这大概是计量经济学能达到的最多的程度了吧。再苛刻的因果真的就是经济理论本身的问题了。
accuracy: 统计还有一大任务，做预测。我们都知道OLS有的时候可以很简单的给出一个consistent的估计量，但是仅仅是均值意义上的估计还是不够的，对你还得给出个方差。这个方差就刻画了你的估计值是不是飘来飘去。我们当然希望一个方差比较小的估计量，所以大多数时候OLS是不能满足这样的要求的（顺便复习一下BLUE的那些条件）。
implementable: 有的时候我们可以用现有的数据、花费大量的时间，来拟合一个漂亮的模型。但是，模型不是放在那里就可以的，在实际应用中大家更关心的是，模型建立之后对于日后决策的指导作用。可能1000个自变量拟合出来的模型比20个好10%到20%，但是在实际应用中，20个变量显然更实用...同理，有些非线性模型漂亮的一塌糊涂，但是计算复杂度可能远远不是多项式级别的。这个时候，退而求其次也不失为一记良策。说到底，有的时候并不要求最完美的模型，总要在性能和效率之间取得一个平衡。
当然说到prediction，这里更多的就有statistical learning的味道了。回归多少还算是supervised learning，至少脑海里大致有个印象什么是回归方程那一边的y。更多的时候，连y是什么都没有概念，所以就有了基于similarity的模型，比如clustering，比如协同过滤...不过有句话确实说的好(摘抄自「统计学习那些事」)：

立新老师曾经有这么一句话：“If a method works well in practice, there must be some theoretical reasons for its success.” 如果一个模型在实践中表现的很好，那么一定有它好的原因。

所以基于上述三点（当然还有可能有更多的考虑），不同的模型对于不同的标准有着不同的达标水平。大家各有所长，用哪个还真得看实际任务的需求了。

「感悟三」，则是statistical learning (统计学习，有点机器学习的味道)的任务，这个是从「The Elements of Statistical Learning: Data Mining, Inference, and Prediction」上照抄的：

预测准确性要高：和上面的accuracy对应。
发现有价值的预测变量：更有可能从归纳法回溯到演绎法，给出更多的insights。

最后的，稍稍偏数学一点。「The Elements of Statistical Learning: Data Mining, Inference, and Prediction」里面第三章讲了很多Shrinkage Methods，关心的是varible selection(生物统计中feature selection)的问题。从大家最耳熟能详的stepwise（逐步回归），到ridge regression(岭回归)，再到Lasso(或者把LAR也算进来)。基本说来，ridge和Lasso是在OLS基础上一个很有意思的变化。

OLS求解的最优化问题是：
ridge regression则是加了一个L2惩罚项，即，其中t是一个给定常数参数。
Lasso则是把这个L2变成了L1，即

就这么一个简简单单的变化，就有了后面那么多神奇的性质。「感悟四」就是，原来Lasso思想并不是那么复杂啊。

Tags Lasso, ringe regression, Shrinkage Methods, Statistical Learning, 一致性, 变量选择, 外生性, 大数据, 大样本, 机器学习, 统计学习, 统计模型, 维数灾难, 计量经济学, 降维, 预测

网络新发现

无意闯入...

偶然间，无意闯入一个孩子的轻博客，大概介于blog和微博之间吧，有长有短，跟长短词似的，约束少很多。

无意中看到这个孩子对于过去的缅怀，轻柔的文字之下，不知道有一段什么样子的故事。于是就这么冒昧的，把人家的轻博客从头翻到尾。我是不是应该检讨一下...虽然网络很发达，但显然很多文字并不是写给我们这种陌路相逢之人的。

好吧，我只能宣传一下这个孩子的blog，嗯，他有个专门写数学知识的blog。貌似最近在研究泛函，我就又没忍住读完了(还好就那么寥寥几篇)...

www.artofproblemsolving.com/Forum/blog.php?u=152939

我是有多么的八卦啊...唉。为什么看着看着就想起了曾经认识的某人呢...嗯，气质确实有点相仿。都是大牛的雏形哎~

Tags 博客, 数学, 文字, 气质, 泛函分析, 闯入

事儿关经济读书有感

声誉溢价让资本市场波动愈演愈烈？

按说我一个不怎么研究finance的人，是没什么太多积淀来对这篇paper评头论足的。只是翻这一期AER的时候看到这篇文章了，感觉有点意思，所以简单的说说他的观点。感觉在成熟的资本市场（不包括中国），对于波动性的研究已经越来越细致，各种可能的因素对于市场的冲击都在其中。相比而言，不成熟的市场就有更多匪夷所思的套利机会，这也是很多量化工具切入点吧……不懂乱说，finance我总喜欢用寡头博弈去理解嗯。

Guerrieri, Veronica, and Péter Kondor. 2012. "Fund Managers, Career Concerns, and Asset Price Volatility." American Economic Review, 102(5): 1986–2017.

working paper版本可以直接点击上面的标题链接下载。

和前几天的那篇讨论薪酬的paper类似，这篇只是更直接的在说基金经理的报酬，当然随着市场的不同有些假设也不大一样。

先说假设。可能大家都知道，金融圈有两种基金经理，靠数量模型的和靠搞市场关系的。前一种基本就是天天对着计算机，后一种则天天到处跑，然后做的就是去找企业的内幕消息。在这样的现实下，肯定有一部分经理对某些企业的违约情况有着更多的信息。

可惜市场永远是信息不对称的。投资者并不知道哪些人确切的有这些内部信息，他们只能参照这些基金经理以往的业绩来决定投资与否。久而久之，我们就见到了很多所谓的“大牌经理”，做到极致的有庞氏骗局的创立者Ponzi，当然他是直接融资了。随着时间的积累，基金经理之间形成了一些声誉之类的信息，可以向外传递。这东西和我们在淘宝买东西时候看到的卖家评价别无二致——亲，这个经理以前没赔过哦~ 很简单的道理，很多人为了规避风险往往会在淘宝选择大卖家，这样大卖家就借助自己既有的声誉可以设置更高的价格（关于在位者与进入者的博弈模型暂时不考虑，那个更符合最近京东和苏宁的故事，有空另外讲~），这就是所谓的“声誉溢价”了。声誉溢价会对基金经理有着正的激励，所以出于对职业发展的考虑他们的投资决策会有所影响——比如当风险极高的时候，一般会选择保守策略。

这篇文章很有意思，一般说来“高风险高收益”，换成人话就是“舍不得孩子套不住狼”，当企业的违约风险比较高的时候，其对应的（不违约时候）收益也应该比较高，这样就可以补偿这些基金经理被炒鱿鱼的风险。可是这不是一个静态的过程嘛，随着时间的流逝，大牌经理的声誉溢价会越来越多的影响投资者的决策，进而更多的影响基金经理的投资偏好（高风险还是低风险金融产品），进而“小流汇江海”，声誉溢价会带来金融市场本身波动的放大，于是我们看到金融市场的一起起风起云涌浪潮波动愈演愈烈。市场的过激反应，便有可能来源于这种声誉溢价。

简单的说，这篇文章得出的就是这么一个结论。放大冲击的波动示意图见下。

让我简单的评价的话...嗯，就算有这么个channel，我们也无力从机制设计上改变什么。市场自然演化的结果。

Tags 不对称信息, 基金经理, 声誉溢价, 投资, 机制设计, 波动性, 职业发展, 资本市场, 违约风险, 金融

日常应用网络新发现

颇具Geek精神的impress.js

好吧，感谢@乐天诗人童鞋的推荐，让我见识到了这么震撼的presentation template。面对这种东西，完全没有抵抗力5555。什么powerpoint，什么beamer...什么pandoc自带的那几个破烂HTML5...一切都定格在impress.js。不要问我这是什么，如果你连自己搜都不会，就太不符合geek精神了。作者超级霸气，比如在帮助文档里面...

HOW TO USE IT

Use the source, Luke 😉

If you have no idea what I mean by that, or you just clicked that link above and got very confused by all these strange characters that got displayed on your screen, it's a sign, that impress.js is not for you.

Sorry.

然后乖乖的看源代码，好不容易看完几百行废话连篇自恋不已的说明，悍然发现：

Oh, you've already cloned the code from GitHub?

You have it open in text editor?

Stop right there!

That's not how you create awesome presentations. This is only a code. Implementation of the idea that first needs to grow in your mind.

So if you want to build great presentation take a pencil and piece of paper. And turn off the computer.

Sketch, draw and write. Brainstorm your ideas on a paper. Try to build a mind-map of what you'd like to present. It will get you closer and closer to the layout you'll build later with impress.js.

Get back to the code only when you have your presentation ready on a paper. It doesn't make sense to do it earlier, because you'll only waste your time fighting with positioning of useless points.

If you think I'm crazy, please put your hands on a book called "Presentation Zen". It's all about creating awesome and engaging presentations.

伤不起啊...还是乖乖的去找“Presentation Zen”这个东西吧。在书到手之前，乖乖的先弄一点东西应付一下接下来的presentation。可惜没搞定knitr，总是报错。只能手动拷代码进去了，sigh。

BTW，这里有个impress.js制作的稍稍潦草的slides，大家凑活着看一下，嘻嘻： http://loyhome.com/impress/ 注：中文默认用“冬青黑体”，没有的自己看着办吧....

Tags html5, impress.js, R, 幻灯片