Categories
事儿关经济

社会实验的特殊性(一)

“实验经济学”这个名词儿可能很多人都觉得蛮耳熟的了,此外社会实验无论是在学术界还是业界都蛮热的。鼓捣出来个什么东西,总要做个实验有个对照才好说效果什么的是吧~

最近一直在想,社会实验这个东西到底有什么特殊性?可能和自然实验相比,最大的不同之处就是反馈回来的是依据人的决策而表现出来的行为,而不像自然实验那样是有既定的物理化学反应过程的。从这个角度而言,我们研究人们的行为的时候,便多了一些更高层次的考量——毕竟人是有思维能力的高等动物,简单的生物学上的“反射”行为可能并不足以完全的解释人们行为的多样性。这也是我为什么觉得economics特别有意思的缘故吧:从工具的角度,我们大量的应用数学、统计学、物理学乃至生物学的成果;从思想的角度,我们在将历史学、心理学、社会学、法学、地理学、人类学、政治学等等融会贯通。有的时候真的觉得越来越难以对economics下一个定义,很多的时候很多交叉的领域让什么定义都觉得没有立足之地。前面说的,大致可以对应为数理经济学、计量经济学、金融物理学、神经经济学、经济历史学、经济心理学、经济社会学(social economics)、法经济学、经济地理学、政治经济学(特指研究政治问题的经济学分支)等等。每一个领域都可以拎出来无数的论文,所以有的时候真的很难以说经济学是一门什么样的学科了。简而言之,研究人类的行为吧,毕竟我们还主要关注在“人”和“行为”上,虽然这个定义也难免让人觉得日渐模糊了。

正因为经济学的社会科学的本质,所以在借鉴自然科学的方法的时候自然也理应格外小心。比如做实验,怎么选取实验组和对照组就是一门很大的学问:人和人不可能完全相同,怎么选两个组之间还是会有一些差异是不可控的。生物学可以用(同卵)双胞胎来做实验,但是这个对于需要田野实验的经济学来说显然是可望而不可及了。此外,继承这个问题,当我们去检验社会实验的结果的时候,又应该有什么样的补救之策呢?

原来看经济学的论文很简单,大家一个“随机分组”就涵盖了所有的东西。反正是随机的嘛,什么都是外生的。但真正到自己手里做实验的时候,却还是有蛮多疑虑的。怎么随机、算是随机?从自然科学的角度,最理想的状况就是实验组和对照组在实验之前“一模一样”。比如我用同一块铁、同样的盐,当然这个总会有一点误差,但足够小以至于可以忽略不计了。可是,当我们在社会实验中,还可以这么天真的假设人和人之间的差异性不大,故而从大数定律来讲只要样本足够大、我们总会得到一个一致的ATE(average treatment effect)估计吗?我心中还是难免有一些疑虑。这种疑虑一是来自于对极端事件发生的担忧(比如随机抽取之后两组出现显著差别,并且可能会直接影响结果,这样结果就多含了一个我们难以剥离开来的分组因素),另一个则是对于ATE的不够细致的感觉。ATE固然好看,但是我们制定策略的时候还是更多的希望适用于每个个体,到底在个体层面这个treatment effect有什么样的差异呢?这个问题并不是毫没有意义,也不是完全没有办法回答的。

在这种种的疑虑中,就多少觉得这个社会实验还是要慎之又慎才能期待一个比较稳健的结果。所以,从我的角度,事先的分组要慎之又慎,事后的结果检验也要因情况选择最合适的方法。两者结合起来或许会控制的比较好一点吧。

刚刚发现手头没有 Mostly Harmless Econometrics 这本书,觉得还是有一本时常翻翻比较好,就从Amazon痛下血本买了……痛是痛在运费,倒不是书费,呵呵,买书总是不心疼的。后悔当年没有直接带回来。还有顺便买了Motta那本书~话说,上次kindle返修之后居然给我留下了25刀的gift card,不用白不用,意外的惊喜啊~amazon真是慷慨,相比而言国内的那个卓越亚马逊真是让人失望,先买的书架后买的书,书都到了书架还没发货!唉!

Categories
事儿关经济

数据挖掘 vs 计量经济学 (Data Mining vs Econometrics)

先说一下免责声明:我在数据挖掘 (data mining)和计量经济学 (econometrics)两方面涉猎都不算深入。今天斗胆写这么一篇文章主要是最近在看data mining的东西,有一些小小的体会,故记录下来以备后用。

Data mining是最近几天热起来的东西,而由于其中文翻译又可译作“数据挖矿”,所以做data mining的人有的时候也被戏称为“矿工”。Data mining和近十几年的信息化潮流密不可分——若没有计算机在各行各业的大力应用,又怎么可能会有这么大规模的数据用来分析呢?简单的说,data mining有点“透过现象看本质”的味道,在大家还都在“雾里看花”的时候,data mining致力于“拨开云雾见月明”。当然一个最经典的例子就是“啤酒和尿布”,即经过统计发现男士购买尿布的时候也容易购买啤酒,所以把他们两个放在一起可以很有效的提升啤酒的销量。所以从我个人的浅薄理解来看,data mining更多的就是利用计算机高计算性能把大规模数据一一的进行模型匹配,然后按照我们制定的标准来返回最优的模型。

至于econometrics,它又想回答什么问题呢?我虽然一路经济学出身,计量却只是当工具学的,从未研究过怎么开发工具,这里只从应用计量经济学的角度来说说我看过的研究。嗯,我们可以说在计量经济学里面总是在做“回归分析”(regression analysis),即给定一个感兴趣的变量,把其他的可视作影响因子的东西扔到方程右边。从广义矩估计的角度来说,即在一阶距为0的前提下(小样本下无偏)、最小化二阶距为目标(OLS方法,欧几里德空间内的距离按||·||2来算)进行拟合。当然简单的回归一定是有问题的,得出的结果最多能说明两个变量之间的“(线性)相关性” (linear correlation)而无法提供进一步的原因:到底是由X导致了Y,还是有其他的因子同时作用于X和Y从而他们显示出一致的变化趋势。从经济学的角度,我们当然更感兴趣什么东西导致了Y,所以在大样本下从寻找一个consistent估计量的角度出发,我们一般要求X是外生的,要不就需要借助IV等其他方法了。如果所有的方程右边的变量都是外生的,那么我们就可以放心的说这里面有“计量上的因果关系(causality in econometrics,这里定义明确一点要不又要被Yihui兄等统计学出身的批判了)”。所以说到这里,我可以小心翼翼的说,econometrics毕竟是和经济学紧密相关的,所以我们感兴趣的是变量之间的“谁导致了谁”的关系,而寻求这种答案的途径之一就是让足够的数据来说话。从这个角度来说,我更倾向于把计量作为检验 (empirical check) 经济理论的一个工具。至于我们怎么可以保证X的外生性(exogeneity),那就是要具体问题具体分析了。两种主流的观点是要么依据一个经济理论中的structural的模型来进行估计,从而什么是外生的一目了然;要么做(随机)(田野)实验 (randomized field experiment)。我感觉近两年两者结合的趋势越来越多,毕竟做实验的那群人不是什么都不知道就去试一通,他们很多时候也是依照现有的经济理论进行随机化实验设计的。从这个角度来说,实验更是检验理论的一种途径了,先不论它可以在什么程度上回答一个(经济学)理论问题。

那么数据挖掘和计量经济学直接是冲突的、还是互补的、抑或其他呢?简单的一路看过去数据挖掘的介绍,譬如Wiki,大多数时候看到的是从计算机或者统计学出身的人写出来的方法论上的东西,缺少有人直接论及这东西和经济学是怎么结合的。我也只是粗粗的搜了一番,找到的只有一篇简短的文章:Data Mining in Economic Science,by Ad Feelders。先引用一下它开头引用的一段话:

Let neither measurement without theory nor theory without measurement dominate your mind, but rather contemplate a two-way interaction between the two, which will your thought processes stimulate to attain syntheses beyond a rational expectation!

Arnold Zellner

大意就是说“我们不应一味迷信数据不顾理论,但也不宜欢迎没有现实世界数据支撑的理论”。这篇文章不长,感觉作者可能是更偏向宏观经济学(macroeconomics)分析,所以例子都是宏观中经典的譬如体现凯恩斯主义的IS-LM模型。作者的观点是,很多经济理论并没有直接的给出一个特定的模型设定,所以数据挖掘的方法可以用来选择最优的模型(依稀记得某宏观经济学家曾在上世纪90年代就一一试过1700多个线性模型……当然现在看来他的分析难逃内生性问题的争议,不过这大概是我所知道的最早的和数据挖掘思想相近的尝试吧)。后面还提到时间序列分析VAR模型(vector auto-regression),这个我有点不喜欢VAR的思想,所以不再多做评议。

回到那个啤酒尿布的例子,我想到的是,确实,这个统计结果出来之后经济学家可以很容易的解释“为什么”,但是经济学理论却难以告诉我们在某个(微观)实例中到底反映这种理论力量的“是什么和什么”。与我来说,经济学的 explanatory power已经很强大,但是具体到一个可以操作的层面还是需要其他技术来支撑的。如果我们可以通过数据挖掘在找寻可能存在关系的两个变量(此例中啤酒和尿布),那么就可以依据经济学理论进行可能的解释,然后还可以进一步设计随机对照试验,分析试验结果则是计量的用武之地了。

嗯,这大概是我刚刚接触数据挖掘的一点感触,不知道几分正确几分错误,或许若干年后回头看就会觉得有些幼稚了。最后想说的是,从我个人的观点来说,经济理论能告诉大家的更多的是“为什么”,在这个很general的基础上,我们可以进一步尝试的去回答在某个例子中到底“是什么”。最后无论使用线性模型进行回归分析还是其他的模型设定都好,数据挖掘技术可以在这个方面推进工作的进展、帮助我们更好的理解数据和读懂数据、在浩繁的数据海洋中提取最有力的信号,剩下的可能就是经济学进行分析的工作了(当然我是从纯经济学角度出发说这个话的)。从这个角度而言,数据挖掘和计量经济学更是一种相互裨益的感觉,前者更多是一种思想吧~矿工嘛,先挖挖试试看。

[注:我只是从自己的所学出发随便说说,其间必有偏颇之处,还望各位海涵及不吝拍砖!]

Categories
事儿关经济

自我通识教育

貌似最近“通识教育”这个词儿蛮热的,很多大学一进去都不分专业了,先来一段什么“通识教育”再说。好吧,我这个已经毕业的人了,也没什么被教育的机会了,只能自我教育一下,故而改称之“自我通识教育”。

今天在读一篇paper,呃,大概久违的非econ的paper了吧。

Zhou T, Kuscsik Z, Liu JG, Medo M, Wakeling JR, Zhang YC. Solving the apparent diversity-accuracy dilemma of recommender systems. Proc Natl Acad Sci U S A. 2010 Mar 9;107(10):4511-5. Epub 2010 Feb 22.

嗯我知道各位会依旧容忍我的引用不规范的。先这样吧。然后按图索骥,很快就找到一篇博文论及此文,巧的是这篇博文正来自COS的一位特约作者阿稳,豆瓣的算法工程师。当时顿感,嗯啊,世界一向很小的是不是。稀里糊涂的看了半天,终于明白这东西大概在鼓捣些什么。不过,我的角度肯定不是从算法本身的角度,更多的是关注一下这种idea背后的逻辑吧。嗯啊,比如我可能会关心一下“为什么”,从数学或统计的角度来说就有一点寻求“一致性”的味道。现在越来越不敢用“隔行如隔山”来宽慰自己,看看我这些年做过的事事儿,就知道天下没有什么绝对的某一领域之说。那天写完那篇关于高维数据降维的文章之后(参见:[cref %e5%b0%8f%e7%aa%a5%e2%80%9c%e9%ab%98%e7%bb%b4%e6%95%b0%e6%8d%ae%e9%99%8d%e7%bb%b4%e2%80%9d-2]),过两天正好跟一学计算机的朋友吃饭,顿时被指责我不务正业,一个学经济的来掺和啥啊。这年头,是不是,术业有专攻?

呃,我不管,自我通识教育进行中。记得年初的时候经常和一位朋友闲扯,他就论及为什么“交叉领域”的研究这么稀缺。是啊,想在一个领域做好已经不容易了,更何谈深入另一个领域?此外,这还得有一种为求真理不断奉献的精神,若是对知识没有渴求,那么怕是也没什么动力继续研究下去吧。呃,好吧,其实我是对“金融物理学”有一点点偏见的。刚搜了搜去年此时居然写了一篇关于金融物理的文章,嗯啊,莫非现在的眼界已然不如当年广阔了吗?弄得我都有点冲动去再读一个硕士了,比如statistics或者physics。当然,说说而已,付诸行动的可能性真不大。顺便说一下Mcgill有位牛人,一面是计量大家,一面又在物理学顶级期刊上灌水,看他的CV顿时让人感觉“此人只应天上有”。不卖关子了,我指的是Russell Davidson

最近在考虑把硕士毕业论文好好的从头看一遍,把各个部分分别的仔细考量一下,看看能有什么新的进展。从这个角度而言,当时真的是很冒险,我和我的合作者就这么大胆的去应用经济学到公共健康领域。回过头来看,其中运气的成分不少,要不很可能无法按时完成呢!不过,有点怀念上几个月可以静下心来写两篇文章的感觉,很舒服,很专心,收获也很大。果然,做过一遍的东西还是理解的更加深入些。希望能有一些新的洞见吧。

嗯啊,算是给自己一个锻炼和成长的机会吧。总该暂时的离开economics一段时间,换一个角度、换一个心情来看待这门学科、抛去所有光环什么的。看看落园这些年来攒下的文章,一种小小的惬意感油然而生。明天还要做一回免费的consultant,嗯啊,既然我已经下决心不去Paris了,这封email多少是带有一些愧疚的味道的,我也想静下心来好好的想一想怎么可以帮助一个项目更好的运行。嗯啊,人总是在不断的学习中,也希望这样的学习和磨砺可以带来更快的成长吧。所谓“生于忧患,死于安乐”嘛!

[p.s.] 这是不是意味着落园的栏目设置要改一下了呢?可能“事儿关经济”下面的东西会越来越少,大概需要一个新栏目来替代了吧。

Categories
事儿关经济 游来游去

潮流的味道

今天的日志可能有点琐碎,以最近异常的更新频率大家就可以看出来我现在是有多么的无聊了……终于冒险坐高铁回到了家,上车后依旧自顾自的倒头睡去,管他到底什么运气!这两周,彻底把各种交通工具都坐烦了,就差去青岛坐船了!

先说说上午的所见所闻。这是继两周前跟某公司探讨了一下可能的发展方向之后,第二次继续谈这个东西。这一次见到了两位经济学背景的人,说起话来也轻松一些,至少不用我去思考怎么跳过那些专业名词来用最通俗的语言解释一件事物。不过,有点小小的被考的感觉,三个人稀里哗啦的扔给我一堆问题,还好我乱七八糟的总能扯到自己知道的方向上去,一个P-A model还是可以拿出来撑撑门面的,哈哈。

总体上依旧感觉他们对自己想做的事情想法还不是很成熟,没有具体到某一个问题,只是模模糊糊的有一个大的方向希望能够有所突破。话说,白痴了我,世界这么小,Michael老师自然应该是拜访过那里的。我,我,丢人了先。然后被问到会那些编程、尤其是写过的程序最长有多少,当时我就石化了——我想,您不是打算找我来写代码的吧?想想自己简历上虽然罗列了很多语言,现在能捡起来马上用的大概只有C和PHP了,最多再加上一个SQL语句,如果R和Matlab都不算的话。这个,我表示极度的无奈——我认为自己的编程知识足够和coder沟通就可以了,最多写写伪代码,不需要我手动写程序吧?当时那个大汗淋漓啊!您要发挥一下比较优势是不是?

好了,说点要紧的。今天我们一直在讨论,这个到底怎么判断一个拍卖是否收敛到均衡。这个,确实是一个极度缺乏实际工作经验的人难以想到的问题。是啊,在实证研究中,我们往往假设这个东西已经处于均衡状态。可是到底是不是处于均衡,这有没有一个判断的方法?从均衡的定义上来讲,应该是一个收敛到一个点的过程,或者说“有一个不动的东西”。这个东西到底在现实中是不是像我们学习理论模型时候一厢情愿的那样相信一定有还是个问题,就算有,怎么判断?尤其是在一个动态的、有噪音的市场中。我还一时真没想到什么好办法,除了看一下收敛速度之外。至于不收敛是不是均衡就不存在,这个,我真的不知道……不收敛那么就发散?发散到正负无穷又有什么意义呢?顿时真的是毫无头绪。这里面还牵扯到一个竞标者本身所处的产业的发展趋势问题,想想就好复杂,动态的均衡可能是某些外生变量的函数,这么一来就更难以定量判断了……

还有一个比较好玩的问题,说的是这个市场中不断的有新的agent加入,而这些人可能缺乏对于拍卖机制的基本认识,所以他们便成了“搅局者”。这也是继承上次谈话中我们提到的“非理性”的问题。是啊,你有一个规则,但是大家不明白这东西应该怎么玩,那么再美好的结论也是白搭。嗯,我一直在想的是,长期中我们确实是可以假设所有的agent都通过学习了解了这个过程,但是长期有多长,经济学一般难以定量的给出答案;此外,如果有更多的搅局者在动态过程中不断的加入,那么怎么对付这样的冲击,呃,我也不知道。天,真的是理论和现实的差距好大,不做实务的人怎么会意识到现实中有这么多问题!顿时觉得自己枉读了一堆论文,还没琢磨明白怎么把behavioral econ和其他经典的微观理论结合起来,没有思路上的启迪啊。是不是应该发个email骚扰一下某些prof了……真的是才疏学浅啊!

嗯,大致想起来的最有意思的就这些,看来果然从现实出发是有很多东西可以细细琢磨的,且不是一日半日便可寻的上佳良策的。哈哈,果然学习到了很多东西,看来这次的北京之行又称得上是不虚此行!好多要学习的啊,弄得我一下子又想开始看论文了……sigh,难得的假期!

好吧,现在开始灌水。首先貌似搞定了Kindle的replacement,Amazon很爽快的答应重新给我寄一个过来,不过唯一的缺陷是只能寄到香港去~唯有拜托同学先收一下了。其实要不是一直在旅行、懒得打越洋电话,新kindle估计已经拿到了……amazon的效率还是值得赞一个的!不过继续等吧,嗯啊,至少最近是没的用了。话说,这个“卓越亚马逊”什么时候开始售卖中文版的kindle书啊?我等的好辛苦啊!今天又手痒痒买了一本 The Cathedral of the Sea(中译:《海上大教堂》),在巴塞的时候就一直想看而没找到的——西文版的看不懂,英文版的直接买好贵。于是就一直忍到现在。瞬间又想起来去年临走之前拿到的那本《费曼物理学讲义》,也要抽时间看完啊,各种无奈拖到现在……此外,今天很囧的发现在卓越买完书居然没法信用卡付账了——余额不足。天,我居然把8000的额度彻底刷爆了,真人品啊!各种检讨好了,回国之后的货币幻觉啊,总觉得什么都不要钱似的,虽然另一面也在抱怨什么都贵。这个,没想到高铁还是蛮费钱的说,有点小小的出乎意料。不过综合看起来还好,两周的时间大概在路上花掉三四千块钱,比巴塞还是便宜了许多。

最后感慨一下weibo这个东西。呃,众所周知我虽然有twitter但是基本上只是用作通知一下blog更新,还链接的是我的英文的blog……饭否也是很多年前玩的了,现在已然销声匿迹了。今天好奇心起,就开始各种人肉,欲多了解一些事情。果然不是很麻烦,就顺利的搜到了想看的人的微博(哈哈,照片好卡哇伊啊)。怎奈需要登录,于是乎费了好大劲终于想起来新浪围脖的帐号密码,真不容易!登上去,开始细细浏览,嗯,嗯,好像一切都在意料之中似的,没什么特别特殊的。最多就是满足了我一下好奇心,别的地方基本上搜不到什么相关信息。不写blog的人真的很难找啊!

周围很多人都在玩微博,我不知道自己是不是真的跟不上潮流了,一点都没有那种及时获得信息的愉悦感了,每天能例行的看一下新闻就算不错了。诚然我知道微博这东西很强大,但是已经没有任何动力去玩了——以这几天的blog更新频率来说,我大概已经把这东西当微博写了,除了长了些。想说的是什么呢,真的,第一不想被信息淹没,第二想静下心来写一点东西而不是一味的推波助澜。我想,这就是blog和micro blog最大的不同吧?大致说来,我是没有动力试水micro blog了——同样的还有一点比较庆幸的,在巴塞的这一年终于戒掉了手机依赖症。现在,我真的不希望我的手机可以用来上网,能打电话发短信就可以了!然后给我一个kindle可以看看书打磨路上的时光就好了(最多连连网看看google reader)。至于互联网,还是用电脑来应付吧。像我这种人最不能买的怕就是iPad了,要不肯定是难以离手的那种。网络越发达,还是越要给自己制造一点障碍来专心致志的做应该做的事情。不能总把自己淹没在信息里面,还是要知道究竟想做的是什么的(为自己最近笑话增多做检讨,煎蛋这种网站就是不能订阅的是不是?)!

还有一件很奇怪的事儿:学校的VPN在家里(铁通)能用,在北京的宾馆里就连不上,好诡异。VPN是用cisco客户端那种,不过不知道是不是因为服务器地址含vpn,所以直接被屏蔽了。一个需要用vpn上gtalk的人,真伤不起啊~还有各位,怎么把gmail的offline激活?今天本来想装gears,去官博看了一眼已然属于末日黄花了。Gmail直接告诉我我的浏览器(FF4)不支持offline,顿时晕倒。还请支招对策!这个gmail缓慢的登录速度我真受不大了了!

Categories
事儿关经济

小窥“高维数据降维”

算了,还是“一心只读圣贤书”吧。我觉得保险公司应该开发一个新险种:高铁动车险。你看我们坐汽车坐飞机都可以有保险买的,怎么坐火车的时候从来都没有这个选项?飞机的旅行保险貌似是细致到各种可能出现的事端,比如“晚点”、“取消”,那么高铁保险也可以以“停电”“雷击”“脱轨”等等名义来帮助消费者分担风险。最近看新闻看多了,弄得我这个在欧洲这么一个航班延误算是家常便饭的地方都不买保险的人,回来之后能买就买。说了这么多,我只是在小小思量明天应该怎么回家啊,这个高铁还敢不敢坐啊?查了查明天的高铁剩余车票,基本上京沪高铁都没怎么卖出去嘛!看来大家已经开始“用脚投票”了。

刚才在例行的看订阅的东西,就瞟见木遥终于更新了一篇学术日志:J-L 定理,以及为什么一个立方体相当于一个球壳。开始的时候没注意是他的,还在想谁能用中文写关于纯数学的blog;定睛一看之后,果然是木遥。这篇日志中提到的J-L定理,大致是:

Johnson–Lindenstrauss 定理是我在今晚的一个学术报告里听说的一个非常令人惊讶的定理。简单说来,它的结论是这样的:一个一百万维空间里的随便一万个点,一定可以几乎被装进一个几十维的子空间里!

本能的出于对中文写作的文献的不信任(无关作者国籍,只是说写作语言,中文论文噪音实在是太大了,甄别起来太费事儿),我顺手搜了搜,找到了一篇1999年的证明,上曰:

The Johnson-Lindenstrauss lemma shows that a set of n points in high dimensional Euclidean space can be mapped down into an O(log n=ffl 2 ) dimensional Euclidean space such that the distance between any two points changes by only a factor of (1 Sigma ffl).

到这里,基本和上面先引用的木遥深入浅出的解释一致了。Google scholar继续给力,一下子又看到了两篇应用这个定理的paper:

  1. Ella Bingham and Heikki Mannila. 2001. Random projection in dimensionality reduction: applications to image and text data. In Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining (KDD '01). ACM, New York, NY, USA, 245-250.
  2. Nir Ailon and Bernard Chazelle. 2006. Approximate nearest neighbors and the fast Johnson-Lindenstrauss transform. In Proceedings of the thirty-eighth annual ACM symposium on Theory of computing (STOC '06). ACM, New York, NY, USA, 557-563.

(还请大家暂时容忍我的引用不规范……不想开Zotero了)

第一篇文章便是应用了Random projections来进行降维处理,是一篇实证文章,比较了Random projections和其他经典方法的优劣,采用的是图像和文字数据;第二篇则是基于上面的J-L定理,发展出来的Fast-Johnson-Linden-strauss-Transform(FJLT)变换算法:The FJLT is faster than standard random projections and just as easy to implement. 看到这里,大致可以理解J-L定理的基本原理和相应的发展趋势了。当然,还有一些研究者在继续探究J-L定理的性质,比如这篇William B. Johnson , Assaf Naor, The Johnson-Lindenstrauss lemma almost characterizes Hilbert space, but not quite, Proceedings of the Nineteenth Annual ACM -SIAM Symposium on Discrete Algorithms, p.885-891, January 04-06, 2009, New York, New York。我就没有细细看此文了,以一个标题党的眼光这篇文章大致指出了J-L定理(或者引理?)还不足以完美的勾勒Hilbert空间的性质吧。

关注高维数据降维,一者是最近貌似高频大规模数据处理很热,姑且认为这种需求大概是近十几年计算机大规模应用在各个行业的必然结果吧;另者巧的是最近google不是出了个新的图片搜索么,可以直接拖图到搜索框中。正好看到了一篇blog论及与此,好奇之下也就在关注google的算法:

When you upload an image to Search by Image, the algorithms analyze the content of the image and break it down into smaller pieces called “features”. These features try to capture specific, distinct characteristics of the image - like textures, colors, and shapes. Features and their geometric configuration represent the computer’s understanding of what the image looks like.

  • 对于每张图片,抽取其特征。这和文本搜索对于网页进行分词类似。
  • 对于两张图片,其相关性定义为其特征的相似度。这和文本搜索里的文本相关性也是差不多的。
  • 图片一样有image rank。文本搜索中的page rank依靠文本之间的超链接。图片之间并不存在这样的超链接,image rank主要依靠图片之间的相似性(两张图片相似,便认为它们之间存在超链接)。具有更多相似图片的图片,其image rank更高一些。

简而言之,Google不过是把图片的特征提取,从我的理解来看也是一种把高维数据进行降维处理的思路。

说来有趣,我本身不是一个学计算机出身的,虽然机缘巧合的在大学期间学了很多涉及编程的东西,但更多只是限于语法,还谈不上算法。总所周知,国内的算法和数据结构教材有够陈旧和不实用,所以当年算法就没学好……不过对于“时空复杂度”的基本概念还是有的。后来发现经济学里面居然也盛行编程,当然大多数是一种数值模拟的思路(计量除外)。只是这里大多情况下也用不到什么算法了,一个定理出来之后算法的思路基本就很明晰了,更多的只是在于如何更好地定义初始的数据结构,以及一些基本的小tricky的选择(比如是插值算法是牛顿插值还是其他)。另有一种感觉就是以现在计算机的高计算能力和大多数情况下经济学里面对于模拟的要求,根本不需要找个高效率的算法——大多情况下循环也循环不了多少次,计算机跑1秒和2秒的差别又何在?弄得我有时候就是偷懒,明知程序写出来很没效率,还是不愿把时间花费在思考一个更有效的算法上——只要找一台更好的计算机便是了嘛!于是在我的笔记本已然承载不了的情况下,开始折腾学校里面的计算机,哈哈。当然,已知的更好的收敛算法还是会考虑的,比如经典的"policy function iteration"和"value function iteration"……顿时想起当年严格证明前者的迭代结果和后者一样的痛苦经历……于是于我,心里便暗暗的有种感觉,算法不是学CS人的事儿,是学math的人的事儿……各种美妙的数学定理才是更好的算法的源泉啊。

另,木遥提到的另外的关于高维空间中大数定理的问题,也很有趣,值得稍稍琢磨一下。无奈我数学基础还不够,尚不能完全理解他说的那些东西,看来还是需要时日打磨啊。