落园 – Page 75 – 来者皆客

小窥“高维数据降维”

算了，还是“一心只读圣贤书”吧。我觉得保险公司应该开发一个新险种：高铁动车险。你看我们坐汽车坐飞机都可以有保险买的，怎么坐火车的时候从来都没有这个选项？飞机的旅行保险貌似是细致到各种可能出现的事端，比如“晚点”、“取消”，那么高铁保险也可以以“停电”“雷击”“脱轨”等等名义来帮助消费者分担风险。最近看新闻看多了，弄得我这个在欧洲这么一个航班延误算是家常便饭的地方都不买保险的人，回来之后能买就买。说了这么多，我只是在小小思量明天应该怎么回家啊，这个高铁还敢不敢坐啊？查了查明天的高铁剩余车票，基本上京沪高铁都没怎么卖出去嘛！看来大家已经开始“用脚投票”了。

刚才在例行的看订阅的东西，就瞟见木遥终于更新了一篇学术日志：J-L 定理，以及为什么一个立方体相当于一个球壳。开始的时候没注意是他的，还在想谁能用中文写关于纯数学的blog；定睛一看之后，果然是木遥。这篇日志中提到的J-L定理，大致是：

Johnson–Lindenstrauss 定理是我在今晚的一个学术报告里听说的一个非常令人惊讶的定理。简单说来，它的结论是这样的：一个一百万维空间里的随便一万个点，一定可以几乎被装进一个几十维的子空间里！

本能的出于对中文写作的文献的不信任（无关作者国籍，只是说写作语言，中文论文噪音实在是太大了，甄别起来太费事儿），我顺手搜了搜，找到了一篇1999年的证明，上曰：

The Johnson-Lindenstrauss lemma shows that a set of n points in high dimensional Euclidean space can be mapped down into an O(log n=ffl 2 ) dimensional Euclidean space such that the distance between any two points changes by only a factor of (1 Sigma ffl).

到这里，基本和上面先引用的木遥深入浅出的解释一致了。Google scholar继续给力，一下子又看到了两篇应用这个定理的paper：

Ella Bingham and Heikki Mannila. 2001. Random projection in dimensionality reduction: applications to image and text data. In Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining (KDD '01). ACM, New York, NY, USA, 245-250.
Nir Ailon and Bernard Chazelle. 2006. Approximate nearest neighbors and the fast Johnson-Lindenstrauss transform. In Proceedings of the thirty-eighth annual ACM symposium on Theory of computing (STOC '06). ACM, New York, NY, USA, 557-563.

（还请大家暂时容忍我的引用不规范……不想开Zotero了）

第一篇文章便是应用了Random projections来进行降维处理，是一篇实证文章，比较了Random projections和其他经典方法的优劣，采用的是图像和文字数据；第二篇则是基于上面的J-L定理，发展出来的Fast-Johnson-Linden-strauss-Transform（FJLT）变换算法：The FJLT is faster than standard random projections and just as easy to implement. 看到这里，大致可以理解J-L定理的基本原理和相应的发展趋势了。当然，还有一些研究者在继续探究J-L定理的性质，比如这篇William B. Johnson , Assaf Naor, The Johnson-Lindenstrauss lemma almost characterizes Hilbert space, but not quite, Proceedings of the Nineteenth Annual ACM -SIAM Symposium on Discrete Algorithms, p.885-891, January 04-06, 2009, New York, New York。我就没有细细看此文了，以一个标题党的眼光这篇文章大致指出了J-L定理（或者引理？）还不足以完美的勾勒Hilbert空间的性质吧。

关注高维数据降维，一者是最近貌似高频大规模数据处理很热，姑且认为这种需求大概是近十几年计算机大规模应用在各个行业的必然结果吧；另者巧的是最近google不是出了个新的图片搜索么，可以直接拖图到搜索框中。正好看到了一篇blog论及与此，好奇之下也就在关注google的算法：

When you upload an image to Search by Image, the algorithms analyze the content of the image and break it down into smaller pieces called “features”. These features try to capture specific, distinct characteristics of the image - like textures, colors, and shapes. Features and their geometric configuration represent the computer’s understanding of what the image looks like.

对于每张图片，抽取其特征。这和文本搜索对于网页进行分词类似。

对于两张图片，其相关性定义为其特征的相似度。这和文本搜索里的文本相关性也是差不多的。

图片一样有image rank。文本搜索中的page rank依靠文本之间的超链接。图片之间并不存在这样的超链接，image rank主要依靠图片之间的相似性（两张图片相似，便认为它们之间存在超链接）。具有更多相似图片的图片，其image rank更高一些。

简而言之，Google不过是把图片的特征提取，从我的理解来看也是一种把高维数据进行降维处理的思路。

说来有趣，我本身不是一个学计算机出身的，虽然机缘巧合的在大学期间学了很多涉及编程的东西，但更多只是限于语法，还谈不上算法。总所周知，国内的算法和数据结构教材有够陈旧和不实用，所以当年算法就没学好……不过对于“时空复杂度”的基本概念还是有的。后来发现经济学里面居然也盛行编程，当然大多数是一种数值模拟的思路（计量除外）。只是这里大多情况下也用不到什么算法了，一个定理出来之后算法的思路基本就很明晰了，更多的只是在于如何更好地定义初始的数据结构，以及一些基本的小tricky的选择（比如是插值算法是牛顿插值还是其他）。另有一种感觉就是以现在计算机的高计算能力和大多数情况下经济学里面对于模拟的要求，根本不需要找个高效率的算法——大多情况下循环也循环不了多少次，计算机跑1秒和2秒的差别又何在？弄得我有时候就是偷懒，明知程序写出来很没效率，还是不愿把时间花费在思考一个更有效的算法上——只要找一台更好的计算机便是了嘛！于是在我的笔记本已然承载不了的情况下，开始折腾学校里面的计算机，哈哈。当然，已知的更好的收敛算法还是会考虑的，比如经典的"policy function iteration"和"value function iteration"……顿时想起当年严格证明前者的迭代结果和后者一样的痛苦经历……于是于我，心里便暗暗的有种感觉，算法不是学CS人的事儿，是学math的人的事儿……各种美妙的数学定理才是更好的算法的源泉啊。

另，木遥提到的另外的关于高维空间中大数定理的问题，也很有趣，值得稍稍琢磨一下。无奈我数学基础还不够，尚不能完全理解他说的那些东西，看来还是需要时日打磨啊。

Tags J-L定理, 保险, 动车, 大规模数据处理, 数值模拟, 时空复杂度, 用脚投票, 算法, 编程, 降维, 高维数据, 高铁, 高铁险, 高频数据

游来游去

Protected: 烟雨江南（二）

Post author By Liyun
Post date July 24, 2011

Tags 动车, 压力, 工作, 年轻, 年龄, 执着, 梦想, 江南, 结婚, 飞机, 高铁

游来游去

Protected: 烟雨江南（一）

Post author By Liyun
Post date July 24, 2011

Tags 中国速度, 变化, 小桥流水, 效率, 旅游, 江南, 理想, 金钱, 高铁

事儿关经济

未知的价值

[在文章的开头，请容许我祝福一位高中同学及其家人。纵然世界是无常的、生命在某些力量前脆弱的不堪一击，但我们总是顽强的在跟命运抗争着。逝者已去，活着的人自当更珍惜自己的生命。]

今天经历了一个很有趣的环节，被问及我期望中的base salary是多少。我觉得有点出于职业习惯，我居然想到auction模型去了……记得有个model是说大家对于一个价值未知的东西竞标，比如说当年在东南亚一带有“剖石见玉”，很多人看中一块、一次便足够下半辈子的生计了，也因此有不少人宁愿冒险以求在逆境中翻身。后来常见的是南非的钻石矿，也是采取卖石头的策略，如果我没记错的话便是买家在购买之前并不知道里面的钻石成色如何。

同样的例子还有很广泛的应用在油田上，即竞标的人并不准确的知道标的的价值。刚搜了一下，发现这种拍卖被称之为“相关价值拍卖(common value auction)”，还有随之而来的“赢者的诅咒(winner's curse)”。有兴趣的不妨搜搜这两个概念，简而言之，它说的是：

In short, the winner's curse says that in such an auction, the winner will tend to overpay.

不具体的说这个拍卖模型了，说说我自己的亲身感觉。其实，我也不知道自己在劳动力市场上的真实价格应该为多少，但是市场的好处就是重复博弈，可以不断修正自己对自身价值的估量。再者，我也可以参照市场上既有的信息来做一个基本的估量，比如按照今天我们提到的，一个可行的参照是“欧洲经济学硕士”的平均薪酬，或者我可以参照欧洲对于经济学硕士的薪水，经过购买力平价计算一个我可以接受的价格。但是，这个东西又是因行业而异的，国内对于经济学背景（非金融业）的人能做的事情的检验还是不够，不像欧美似的市场已经趋于成熟，能做什么事、拿多少钱大都是已经被长期检验过了。而且我做的事情可能是没有多少人在做的，所以我自己也不知道能做到什么程度、能提供多少价值。从我的理念来看，我的价格必然是取决于我的工作能给公司或者社会带来的价值的，既然我本身对于这个东西都没有形成一个完善的预期，自然很难自我定价。这个时候，不如让市场来决定。

在我遇到的情况中，我的问题是这可能不是一个auction，或者说我也没有视其为一个auction。我是一家一家的去谈意向。更多的理念是，我相信我的pay off会是一个对我的价值的肯定，至少在长期它应该收敛到理性预期那里去。所以，既然长期都会收敛，那么短期内我可以放弃对于薪水的要求，更专注于我想做的事情。然后，一个竞争性的市场会告诉我我的价值到底在哪里，我对自己自然也能形成一个比较理性的预期。从这点说，雇佣一个经济学出身的人会比较有风险，如果我的utility function没有人情的因素的话，那么理论上我是会跟随市场走的。当然，市场有的时候并不是一定有效率的，或者我也不能这么短视是不是？一个合理的职业发展路径规划理应在我的选择中占据主导地位。换言之，未来更重要。

我在想，既然我都不清楚自己的价值，我也没有找到一个合理的模型来为自己定价，那么对我的雇主来说，他们也是在take the risk的。无论如何，我理应比其他任何人都了解自己，从这点来说我还是有信息上的优势的。虽然从agent-principal模型的角度，拥有更多信息的人会相对的得到一个信息租金，然后相比而言风险厌恶的人要为对方付出一个风险溢价，但与我来说这更多是一种静态的考量吧。我一直在想，我首先要做的，并不是面对潜在的雇主描绘一幅宏伟的蓝图，来吹嘘自己有多么大的价值。如果我做不好的事情（例如能力不及、知识不足），就算一时得到了一个岗位，很快的我也会在竞争中失败；相反，如果我可以胜任一个职位，那么在可以预见的未来内我的价值必然可以很快的实现，自然我也有了定价的话语权。从这点来说，在国内找工作真的是风险和收益并存：可以发现很多很有意思的岗位——在欧洲这是相对难一些的；但是，我需要花费额外的努力在证明自己、或者经济学的价值（感觉总体上现存的经济学的应用还是比较naive的……希望不是我的错觉），从这点来说我比如要放弃一些东西。

那么，我的问题就是机制设计：如何设计一个薪酬机制，来更好的分担双方的风险和收益。我不知道我现在的想法、或者说策略是不是最优，但是我觉得至少不失为一计良策：我来更多的承担风险，既然我有信心。一个较低的基本薪酬并不会成为一个问题，如果相应的flexible payoff有机制对应的话。当然，如果我要承担风险，我就要获得一个相应的风险溢价——当结果为优的时候，我需要得到一个更高的回报。我想这个应该是公平的吧？此外，如果考虑激励层面（虽然于我而言，既然要证明自身的价值，那么肯定激励不会成问题），无论是按比例提成还是share, options，对我而言都至少是激励相容的。

跟我现在选择的方式相对应的，还要有一个动态的薪酬调整过程。虽然说长期看来，我上面说的种种东西都会收敛，但是我还是希望面临一个较低的“制度成本”和“谈判成本”。竞争的市场有好处，它总会给你一个选项，可以在劳动力市场上更好的相互匹配；但是这样的转换自然是有成本的，无论是对我来说还是对我的雇主来说（我还是总是会想到“科斯定理”那里去的……）。这一点大概也是我甘心放弃一个short term benefit来换取更长期的有效机制的考虑吧。

从一个讨价还价的角度，每个人都希望bargaining power在自己这边，以换取更多的payoff。这当然是从纯理性的经济学角度出发的一个考量。于我而言，放开一切其他的暂且不论，我还是比较看重人的因素，这个可能是和纯货币角度的分析有所区别的。这也是我这一次有些格外的cautious，想更好的选择一个和自己更匹配的职位（自然是我会把我更感兴趣的事情做的更好）。我一向是比较讨厌优柔寡断的——有那个时间去想，还不如做好决定赶紧去做事。这一次或许还是时间上稍有些富裕，所以希望更多的搜集一些信息吧。没有选择是坏的——因为没有人可以回到原点重新选择一遍然后看看另外的结果。所以，我现在更倾向于最大化双方的利益吧——我到底能贡献多少，这个东西不仅决定了我带来的价值，也同时决定着我的价值。然后，相对应的，什么样子的机制是更有效率的、在实现我的价值的过程之中摩擦更少的。

好吧，我希望多多少少这一次经济学多少可以function well...看来还没有开始工作，我已经在实践中检验经济学理论了。我对经济学没有一种视之为“信仰”的态度，只是希望这种分析方式可以帮助我自己更清晰的看明白自己所处的状况、并帮助我更好的做决策。当然，如果结果不尽如人意，我也没理由去埋怨经济理论，只能怪自己学的不够吧。不过现实世界总是让人兴奋的——理论世界的完美是建立在一系列理想化的假设上的，越无暇、越无趣。现在我就已然在享受这个过程了，哈哈。

Tags common value auction, 信息租金, 定价理论, 拍卖理论, 未知价值, 机制设计, 检验, 理性预期, 相关价值拍卖, 职业规划, 自我定价, 赢者的诅咒, 重复博弈, 风险溢价

日常应用

kindle变砖了？

真是不给力啊，继回国之前相机挂掉了之后，kindle也不争气的变板砖了。大概，是一路上我用它用的太狠了，把电全耗光了吧……然后网上搜了搜，说如果电池全耗掉就有可能出现这种问题。

目前的症状是电脑已然不识别了，充电还在充，不过貌似我已经充了一天一夜了……所有的什么reset之类的方式全都失效，kindle彻底冻结在开机目录了……

好伤心啊，怎么回来之后才坏掉？然后打客服，客服也很无奈的就让我一遍遍拔掉重插、按住电源键不放之类的，也貌似没啥更好的策略。然后说如果还是不行，那么就准备换新的吧……

好在还在一年保修期内，所以最多也就是把这个东西寄回去就好了。但是，鉴于kindle已经不被电脑识别了，里面的若干资料已然无法拷贝出来了……不知道里面有没有啥涉及到个人隐私的东西啊，真伤脑筋。

好吧，继续等kindle充电，然后再看看这块板砖有没有啥复生的希望吧。唉～

Tags kindle, 冻结, 板砖, 死机, 电池, 相机