Categories
事儿关经济

小窥“高维数据降维”

算了,还是“一心只读圣贤书”吧。我觉得保险公司应该开发一个新险种:高铁动车险。你看我们坐汽车坐飞机都可以有保险买的,怎么坐火车的时候从来都没有这个选项?飞机的旅行保险貌似是细致到各种可能出现的事端,比如“晚点”、“取消”,那么高铁保险也可以以“停电”“雷击”“脱轨”等等名义来帮助消费者分担风险。最近看新闻看多了,弄得我这个在欧洲这么一个航班延误算是家常便饭的地方都不买保险的人,回来之后能买就买。说了这么多,我只是在小小思量明天应该怎么回家啊,这个高铁还敢不敢坐啊?查了查明天的高铁剩余车票,基本上京沪高铁都没怎么卖出去嘛!看来大家已经开始“用脚投票”了。

刚才在例行的看订阅的东西,就瞟见木遥终于更新了一篇学术日志:J-L 定理,以及为什么一个立方体相当于一个球壳。开始的时候没注意是他的,还在想谁能用中文写关于纯数学的blog;定睛一看之后,果然是木遥。这篇日志中提到的J-L定理,大致是:

Johnson–Lindenstrauss 定理是我在今晚的一个学术报告里听说的一个非常令人惊讶的定理。简单说来,它的结论是这样的:一个一百万维空间里的随便一万个点,一定可以几乎被装进一个几十维的子空间里!

本能的出于对中文写作的文献的不信任(无关作者国籍,只是说写作语言,中文论文噪音实在是太大了,甄别起来太费事儿),我顺手搜了搜,找到了一篇1999年的证明,上曰:

The Johnson-Lindenstrauss lemma shows that a set of n points in high dimensional Euclidean space can be mapped down into an O(log n=ffl 2 ) dimensional Euclidean space such that the distance between any two points changes by only a factor of (1 Sigma ffl).

到这里,基本和上面先引用的木遥深入浅出的解释一致了。Google scholar继续给力,一下子又看到了两篇应用这个定理的paper:

  1. Ella Bingham and Heikki Mannila. 2001. Random projection in dimensionality reduction: applications to image and text data. In Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining (KDD '01). ACM, New York, NY, USA, 245-250.
  2. Nir Ailon and Bernard Chazelle. 2006. Approximate nearest neighbors and the fast Johnson-Lindenstrauss transform. In Proceedings of the thirty-eighth annual ACM symposium on Theory of computing (STOC '06). ACM, New York, NY, USA, 557-563.

(还请大家暂时容忍我的引用不规范……不想开Zotero了)

第一篇文章便是应用了Random projections来进行降维处理,是一篇实证文章,比较了Random projections和其他经典方法的优劣,采用的是图像和文字数据;第二篇则是基于上面的J-L定理,发展出来的Fast-Johnson-Linden-strauss-Transform(FJLT)变换算法:The FJLT is faster than standard random projections and just as easy to implement. 看到这里,大致可以理解J-L定理的基本原理和相应的发展趋势了。当然,还有一些研究者在继续探究J-L定理的性质,比如这篇William B. Johnson , Assaf Naor, The Johnson-Lindenstrauss lemma almost characterizes Hilbert space, but not quite, Proceedings of the Nineteenth Annual ACM -SIAM Symposium on Discrete Algorithms, p.885-891, January 04-06, 2009, New York, New York。我就没有细细看此文了,以一个标题党的眼光这篇文章大致指出了J-L定理(或者引理?)还不足以完美的勾勒Hilbert空间的性质吧。

关注高维数据降维,一者是最近貌似高频大规模数据处理很热,姑且认为这种需求大概是近十几年计算机大规模应用在各个行业的必然结果吧;另者巧的是最近google不是出了个新的图片搜索么,可以直接拖图到搜索框中。正好看到了一篇blog论及与此,好奇之下也就在关注google的算法:

When you upload an image to Search by Image, the algorithms analyze the content of the image and break it down into smaller pieces called “features”. These features try to capture specific, distinct characteristics of the image - like textures, colors, and shapes. Features and their geometric configuration represent the computer’s understanding of what the image looks like.

  • 对于每张图片,抽取其特征。这和文本搜索对于网页进行分词类似。
  • 对于两张图片,其相关性定义为其特征的相似度。这和文本搜索里的文本相关性也是差不多的。
  • 图片一样有image rank。文本搜索中的page rank依靠文本之间的超链接。图片之间并不存在这样的超链接,image rank主要依靠图片之间的相似性(两张图片相似,便认为它们之间存在超链接)。具有更多相似图片的图片,其image rank更高一些。

简而言之,Google不过是把图片的特征提取,从我的理解来看也是一种把高维数据进行降维处理的思路。

说来有趣,我本身不是一个学计算机出身的,虽然机缘巧合的在大学期间学了很多涉及编程的东西,但更多只是限于语法,还谈不上算法。总所周知,国内的算法和数据结构教材有够陈旧和不实用,所以当年算法就没学好……不过对于“时空复杂度”的基本概念还是有的。后来发现经济学里面居然也盛行编程,当然大多数是一种数值模拟的思路(计量除外)。只是这里大多情况下也用不到什么算法了,一个定理出来之后算法的思路基本就很明晰了,更多的只是在于如何更好地定义初始的数据结构,以及一些基本的小tricky的选择(比如是插值算法是牛顿插值还是其他)。另有一种感觉就是以现在计算机的高计算能力和大多数情况下经济学里面对于模拟的要求,根本不需要找个高效率的算法——大多情况下循环也循环不了多少次,计算机跑1秒和2秒的差别又何在?弄得我有时候就是偷懒,明知程序写出来很没效率,还是不愿把时间花费在思考一个更有效的算法上——只要找一台更好的计算机便是了嘛!于是在我的笔记本已然承载不了的情况下,开始折腾学校里面的计算机,哈哈。当然,已知的更好的收敛算法还是会考虑的,比如经典的"policy function iteration"和"value function iteration"……顿时想起当年严格证明前者的迭代结果和后者一样的痛苦经历……于是于我,心里便暗暗的有种感觉,算法不是学CS人的事儿,是学math的人的事儿……各种美妙的数学定理才是更好的算法的源泉啊。

另,木遥提到的另外的关于高维空间中大数定理的问题,也很有趣,值得稍稍琢磨一下。无奈我数学基础还不够,尚不能完全理解他说的那些东西,看来还是需要时日打磨啊。

Categories
事儿关经济

重看“理性经济人”假设

“理性经济人”假设怕是所有人学习当代(西方)经济学最一开始接触的假设。每当论及这个假设,我就不禁想起当年曲创老师的启蒙叫法“厚颜无耻的自私的理性经济人”。理性经济人虽然没有直接的标明“自私”,但是随着期望效用函数(expected utility)的引入,当我们最大化一个效用函数的时候,多少已经暗含了“自私”这一层意义(当然你可以随时的把别人的效用放在自己的效用函数里面来说你也关心其他人,这样而言就更有了一层外部性的考量)。不知道各位是否还依稀记得诸如MWG等经典微观教材在一开始介绍“选择(choice)”的时候,总是在反复强调completeness(中文译作完整性?)和transitivity(传递性)以定义一个选择的理性。

这学期修了Micro II,上半部分是Massimo Motta的competition policy,讲的很是有意思,暂且按住不表;下半部分是Larbi的behavioral econ和decision theory的结合,讲的也蛮有意思的,至少逼着我看了半天vMN、A-A和Savage三种expected utility的表述。联系起我对Keynes的好感更多来源于他在概率论上面的造诣,这些理论就多少也显得很有意思了。贯穿整个下半部分课程,我们多少回顾了近几十年来各位著名经济学家在维护理性经济人假设(或更具体的,期望效用理论)上面所做的各种努力,比如ambiguity aversion, regret aversion, hyperbolic discounting/time consistency, temptation, fairness等等有趣的理论及对应的modeling方法。看来看去,虽然不知道实用价值有几分,却也乐得凑个热闹。

昨天和UPF的一个Ph.D吃饭,不禁聊起来这么多年学习经济学的体会之类。我前段时间大概还感慨过现在才意识到自己本科的时候修过三门经济史课程是多么的幸运,昨天又感慨了一下曾经修过的几门经济法课程又是多么的实用。当年有幸摊上一位很好的经济法(economic law)老师,虽然给分不高,但是从她的课程中真的是收益颇深,尤其是涉及到公司法合同法等等切身相关的法律,现在之所以没有沦落成法盲还真的多亏了当年的训练。有意思的是,后来法经济学学了很多反垄断法,国家税收学了很多税法,保险学学了很多保险法,最后概括起来我的经济类法律知识还是蛮全面的哈哈……而且很多法律条文和执行之间还有一段距离,条例和实例结合起来学也是颇有意思的。反垄断法就不用说了,现在听Motta的课感觉中国的反垄断法真的很有意思啊,该模糊的地方模糊,该清晰的地方清晰,足够的猫腻留下哈哈。想起当年听到张昕竹说起草反垄断法的种种不易,真的是“有法总比没有好”,哪怕这个法律后来的实践总是让人看得云里雾里——譬如我就非常不理解为什么商务部否决了可口可乐和汇源的并购案。我没有听说任何关于此案的横向并购模拟的数量分析,不知道当年的博弈真实情况到底是什么。某种程度上,我多少觉得有点作秀的味道了——既然我们有了这么一个法律,多少要实践一下是不是?

回正题。之所以说到经济类法律,更多的是因为当时说到了现在中国的保险。我不知道大家对于保险的印象如何,反正我近几年是接二连三的被保险震惊啊。保险的本意是分散风险,结果在中国某些乡村的实践中,保险却不幸沦为了变相的传销——保险是由代理人提成的,这个法律是允许的。但是在实践操作中,现在保险代理人提成最多可以达到50%,这是什么概念?我不相信剩下的50%刨去保险公司运营的费用之外,还足够在危机发生的时候支付赔偿。从某种程度上,现在的保险让我觉得有点Ponzi game(庞氏骗局)的味道。城市里的我不好说什么,在农村,很多人文化程度比较低,所以根本不理解什么是保险,也不知道这玩意背后的权利义务是什么。他们仅仅是被几个罕见的赔保的例子所吸引(一般是某村某人出车祸死了,然后被赔付了几十万云云),经保险代理人的三寸不烂之舌一忽悠,就投保了。很多人甚至不知道养老保险的保费是需要连年交的,以为交一次就万事大吉了,直到第二年又要交钱的时候才知道这有点无底洞的味道——若是退保,几乎拿不回分文。另从保险代理人的角度,他们很多人只是负责卖保险,才不关心赔付等等,尤其是有些保险是“平均时间维度上的风险”的,日后一旦有事情发生,我估计某些小保险公司非直接破产不可。有人会怀疑我危言耸听,但是当年看到一个小县城没什么其他的公司,一条街上都是装修的富丽堂皇的保险公司的时候,还会认为这东西没有任何泡沫?

这个时候,有多少人还可以坚持“理性经济人”和“市场是有效率”的说法,认为大家投保是一种理性的风险厌恶的选择?对于保险这个制度本身我还是相当有好感的,但是具体放到市场实践操作中,却又是另当别论了,尤其是在中国这个保险市场发育极其不完全的情况下。人们经常说“银行、保险和证券”是金融体系的三大支柱,可惜在中国保险明显成为了金融体系的短板,若是大家相信“短板理论”那么中国的金融市场怕还真是落后在世界发达国家后面几十年。我和那位金融的Ph.D一聊就说起来当年我们的《货币银行学》这门课——要么是教材陈旧的要死,要么是完全不知所云的上了一次英文翻译课。据他说,很多金融衍生工具在国内就是闻所未闻,然后各种胡乱翻译导致很多人到最后也不知道那些工具到底是什么。刨去我对金融的偏见不说,就中国的金融教育水平我们又有什么期望能在人才云集的国际公司的较量中更胜一筹?只能是被人家制定的规则玩弄吧。

了解我的人可能知道,我一直对rational expectation(理性预期)有一些想法,当然这个和理性经济人还是有天壤之别的。对于理性经济人的一大“辩护”是,如果人们都是“利他”而非“利己”的,社会不见得会更有效率。这是那个模型弄出来的我忘了,只记得大致意思是“利他”并不见得真正能够满足他人的需要,只有自己才可以真切的了解自己的需要。从这个层面,又可以对“共产主义”留下一个问号。我对共产主义的理解还是比较浅薄,随便说一说,欢迎较真儿。当真正实现共产主义的时候,人们是“各司其职,各取所需”。我想不出的是,譬如我大学毕业要找一个合适的岗位,如果没有市场竞争我怎么可以知道我更适合干什么?换言之,我的“比较优势”在哪里呢?我是应该当一个律师还是一个打字员?共产主义对于完全信息的要求怕是有点太高了,这里必然要有一个对社会方方面面都了若指掌的“中央计划者”。不知道这样子的对于信息的要求是不是有能被实现的一日——换言之,制度都是有成本的,信息也不可能是免费的。

说到这里,我真想时间倒退半个世纪听听当年兰格的辩论。学了半天经济学,多少要对“政治经济学”有一些自己的看法是不是。想想当年的“辩证法”,任何事物都有两面性的嘛。那么看一面不如两面都看,学了半天的经济学应该回头重温一下那些经典巨著了——譬如,我一直没有勇气读完的《资本论》。