Categories
读书有感

Constitutional Law by Yale 听课笔记(一)

Coursera上期盼已久的一门课,终于在春天开课了。我一直觉得自己的法律学的太差了,或者说没受过专业的法学训练(其实还应该补一下accounting,可是我实在是懒的去考CFA)...需要恶补一下。所以这门课比较适合我的需求。去年本来计划修完世界史的那门A History of the World since 1300,结果后面各种走神...台大的《秦始皇》倒是听完了。现在不贪多了,争取听好这一门。

写笔记纯粹是为了强迫自己听课...给自己列几个简单的目标:

  • 了解美国的宪法基本知识和相应的社会制度
  • 了解诞生这样宪法的历史背景
  • 了解后面一步步的修正过程
  • 逐渐思考,这样的制度变迁是如何配合美国近代经济发展的

说白了,就是从制度经济学和历史的角度,去理解美国宪法对于经济社会生态的影响。毕竟说到底,mechanism design一直是我很喜欢的一个研究领域,而社会制度是慢工出细活的学习过程。希望接下来的几个月的时间可以达成这样的目标嗯。

-----------------------------

第一节课主要是基本的课程介绍。抄一下前几周的大纲:

  • Congressional Powers:议会
  • Presidential Powers:总统
  • Judges and Juries:庭审系统
  • States and Territories: 联邦
  • The Law of the Land: 土地法
  • Making Amends:修正案
  • Progressive Reforms and Modern Moves:改革演化和最近的进程

然后抄一些要点。纯属照抄,不代表本人倾向。

民主: 1787年,美国宪法建立。在此之前,完全没有民主(democracy)的概念,而在二百多年后的今天,哪怕是拥有十几亿人口的印度,都实现了民主选举。

美国宪法的序言:

We the People of the United States, in Order to form a more perfect Union, establish Justice, insure domestic Tranquility, provide for the common defense, promote the general Welfare, and secure the Blessings of Liberty to ourselves and our Posterity, do ordain and establish this Constitution for the United States of America.

联邦政府模型——

一句纲领:美国是一个三权分立的国家,其中立法权力归国会;行政权力归美国总统;司法权力归美国联邦法院。

国会两院模型和立法权:英国沿袭的是上下院制度。当年这样的制度设计是出于公平考虑(国会成立初期,形成贵族组成的英国上议院和以平民组成的英国下议院。而现在实际上,下议院占较大优势。英国下议院对财政预算案有先议权,上院只有为期一个月的延期通过权,公法案在下院三读通过,上院反对无效,故上院的权力只是象征。首相领导的内阁只对下院负责)。于是有人认为,这样的制度而导致新的法律条款通过相对较为困难,(比如有可能旧的不好的条款长时间存在着),倾向于选择“较少的法条”这样?(对此存在争议)

美国联邦政府参议两院制度由其演变而来,设有参众两议院。参议院(Senate),各州不论人口均派有两名代表;众议院(House of Representatives),以人口比例分配。这是出于“议员对联邦政府不信任”和“政府认为议员不具有代表性”的平衡,或者理解为各个州之间话语权分配的角逐平衡。现在,众议院中有各州众议院议员435名,而参议员来自50个州,为数100名。而关于人数,其实当年也有争论(若是太多,则几乎无法对话;差旅也是个问题)。差旅方面,一律由联邦政府负责,不由各个州出钱(为了避免只有利益相关州代表出席)。

选举方面,众议院每两年选举,25岁且在为7年以上美国公民可以被选为众议院(参议员要求30岁、9年公民)。参议员一任6年,其任期交错,故每两年有约1/3的席次改选。

如果参众任一方认为某提案是违宪的(unconstitutional law),那么不会有任何投票。此外,总统也有判定违宪权。

 

Categories
事儿关经济 读书有感

看起来越来越有意思(bù kào pǔ)的研究

本来想说说一月份这一期AER的,结果看到American Economic Journal: Applied Economics就忍不住先笑了。看完这一期AEJ的摘要再去看了一宿神探夏洛克第三季,瞬间感觉欢乐的好满足...

AER一般还是有一些理论文章的,所以有的时候感觉还是,有点艰涩的无聊着,毕竟现在的理论研究都是marginal contribution,不是那个圈子里一直浸淫着的其实不是那么关心他们又搞出来什么小突破。AE专刊则全是各种各样稀奇古怪的应用研究,尤其以田野实验居多...所以看起来欢乐比较多。

大家可以围观一下这些发现(这期是health专刊么?)

  • Dynamic Implications of Subjective Expectations: Evidence from Adult Smokers: 主观上,人们觉得年龄啦,种族啦,父母寿命啦这些对个人健康的影响更大,而不是抽烟与否。有趣的是,事实上抽烟的人比理性预期模型预测的更为关心他们自己的健康...(好吧我没细看这是个什么样的理性预期模型,总之就是,其实抽烟的人自己也知道不好啦)。
  • Influenza Vaccination Campaigns: Is an Ounce of Prevention Worth a Pound of Cure?:在安大略省的研究发现,如果我们扩大疫苗的接种范围,整个人群会有额外的收益,尤其是老年人,虽然边际收益在递减。哎,这不是,验证了一个人所共知的事实么...政府有钱的话还是集体接种吧(主要是公认的安全的传染病疫苗,不会导致意外疾病的那些)。
  • Small Steps for Workers, a Giant Leap for Productivity:在一个小型的钢铁厂中观察发现,虽然在过去的12年中生产条件没有任何改良、资本投入没有增加,但是产量却实现了翻倍。研究者认为这样的生产力飞跃主要是来源于劳动者劳动效率的进步,比如减少停工时间、加快生产速度和周期这些。呃,这就是传说中的,积小流成江海?
  • The Great Equalizer: Health Care Access and Infant Mortality in Thailand:这个是泰国2001年搞得一个30泰铢的医疗保险补贴项目,项目显然是成功的,穷人的健康状况得到了极大改善、婴儿死亡率下降(衡量公共健康水平的主要指标)。好吧,又一个不出意料之外的结果,实验设计也是相对简单的test-control。
  • Child Gender and Parental Investments in India: Are Boys and Girls Treated Differently?: 通过一种新的实验设计方法,在保证男女婴儿出生率一样的情况下,研究者发现男孩还是受到了家庭的优待,且相比于其他的发展中国家而言,印度的男孩身高体重都比女孩更高。人们以前的一个怀疑是,女孩在大的家庭中比例更高,从而平均来看男女孩受到的家庭关爱可能差不多。针对这个疑虑,作者们所谓的新的方法呢,就是他们只关注家庭中年幼的孩子,假设年幼的孩子出生的时候男女概率还是一样的。这也就是说,不存在针对女婴的堕胎和弃婴行为。显然,依旧不适用于天朝...好失望。
  • Parental Education and Offspring Outcomes: Evidence from the Swedish Compulsory School Reform: 瑞典的义务教育改革显示,母亲的受教育程度对(男)孩子的健康和技能水平有正的影响,而父亲则没有。作者指出,这种现象的原因之一可能是,当年改革影响到的父亲们没有因教育的增加而获得劳动市场相应的回报增加。所以北欧的男性还是那么可怜么,完全取决于女性的进步程度啊。

看完的感觉就是,这么多年这些研究的水平没感觉有明显的进步啊。无论是研究方法还是想法,都缓慢的在那里盘旋着。

话说这期AER倒是有篇paper蛮有意思的,Immigration and the Diffusion of Technology: The Huguenot Diaspora in Prussia,讲的是胡格诺派教徒的移民带来的纺织业进步。结论其实平淡无奇,主要是他们用的数据和IV。数据是1700年移民名单和1802年当地企业的产入产出数据。IV方面,

We instrument the share of Huguenots in a town’s population in Equation 2 with the population losses. Exogeneity comes from the fact that the largest part of population losses did not emerge due to the act of war itself but through the occurrence of the Black Death in the 1620s and 1630s.

也就是说,十七世纪二三十年代的黑死病,给了这些人一个用外生冲击来构造工具变量的机会。哈哈,大家是多么费尽力气的寻找外生冲击啊...

Categories
读书有感

社会网络中的社群识别(Community Discovery)概述

最近一直在看Community Discovery这一块儿的论文,深深的感觉现在就是一个矿工,不断的想方设法挖出来更有价值的信息。而且不是一个点一个点的突破,而是需要寻找出一种脉络,串联起所有的信息来。头痛。

最近的情况是,有一个well-connected的网络,然后我想把它稀疏化、打散成一个个独立的community的感觉。这样就可以分别识别每个community的特征什么的。所以厚着脸皮找施老师讨了几篇papers。而主要的问题是,数据太大了...11M nodes, 20 M edges,还是directed weighted network...我直接放弃了把这些数据从SQL Based data source中挪出来的想法,还是先努力的减少一些edges吧。

先罗列几个相关的术语:community discovery, graph partitioning, network clustering, network sparsification, modularity。了解一个领域最好的方法大概就是去读literature review了,所以乖乖的要了一篇:

Srinivasan Parthasarathy, Yiye Ruan and Venu Satuluri. "Community Discovery in Social Networks: Applications, Methods and Emerging Trends", in Social Network Data Analytics 2011. (NS, DM)

最契合我的想法的就是cut类方法——remove some edges to disconnect the network, then (drop isolated nodes with degree = 1 (could be added back later as auxiliaries to each community)。

那么就先从这一类方法开始说。比较经典的算法呢,是希望砍掉一条边以后,community内部的凝聚力不变,外部连接变差。基本上常用的就是Ncut(normalized)和Conductance、KL object、Modularity这些指标。比如KL算法,就是从二分图开始,不断迭代的去寻找如果交换某两个点所属community就可以减少edge cut的边。可惜的是,这些最优化问题都是NP-hard....随着数据的增大算起来会异常吃力。KL算法本身迭代也是相当考验计算能力的(贪心搜寻)。

然后就是凝聚(或者切分)类算法。凝聚就是先各自为家,然后附近的相互结合在一起,直到理想数量的社群结成;切分则是先从一个整体开始,然后每一步都切成两份这样。这些都算是层次聚类,最后可以给出一个长得像二分树的系统树图。这一类算法有Girvan和Newman切分法:每一步先计算每条边的betweeness score,然后把得分最高的边砍掉,然后再重复这个步骤。嗯,问题依旧是这样的迭代很耗时间。

频谱类算法(spectral algorithms)。听这个名字一股经典风就袭面而来。基本上这类方法就是仰仗特征向量(eigenvector),比如adjacency matrix的特征向量,然后top k特征向量就定义出来一个k维的特征空间,然后就可以用传统的比如k-means这样的方法来聚类了。说白了就是降维、降维。可惜这种方法依然算起来很消耗资源,光算那个特征向量就是O(kM(m))的复杂度...基本在大矩阵下就投降了。一个概率的方法就是Graclus算法,基本的直觉就是基于加权的normal cut measures再做加权核k-means便可以给出基于特征向量聚类一样的结果,而计算消耗相对少一些。

多层次图分割(Multi-level graph partitioning)。这个就是相比而言快速有效的方法了。基本的想法就是,先压缩原始图像到一个小的图像、分割这个图,然后再映射回原来的图。毕竟小图分割起来就要快的多嘛。这类的方法除了上面说到的Graclus,还有Metis(以KL object作为measurement),以及MLR-MCL。

马尔可夫聚类(Markov Clustering,MCL)。基本的想法就是,两点之间的信息传递是随机流(stochastic flow)。MCL对随机矩阵会做两个操作,扩张(expand)和膨胀(inflate)。前者就是简单的矩阵平方,后者则是用一个膨胀参数(非线性)来撑大彼此之间的差距,最后再重新normalize。这两个步骤交替进行。这样的话,原本community中紧密相连=的两个点则会更紧密的相连,而不同cluster之间的连接则被弱化。这样最后每个community之内的点都会流向某个attractor(吸引点),从而我们可以识别各个cluster。感觉这里有点收敛到一些不动点的意思。MCL的弱点也是计算消耗。矩阵乘法在开始边的权重没有弱化的时候是非常消耗时间的,此外MCL倾向于产生不平衡的群落,尤其是可能产生一堆很小的群落或者一个很大的群落。

MCL的改良主要是在引入惩罚项(regularized MCL)和加入多层次(multi-level regularized MCL),以减少不平衡的clusters和解决MCL难以scalable的问题。后者也简称为MLR-MCL,就是刚才多层次分割里面有提到的那个。

局部聚类(local graph clustering)。局部方法基本上就是从一个给定的顶点(seed)出发,寻找符合条件的群落,而并不关心整个graph的情形(除非所有的群落需要覆盖全图)。计算上就是利用随机游走(random walk),从一个群落的内部开始,一点点的向外扩张(有没有很像page rank的感觉?)。最早的Spielman and Teng就是这样的基于顶点随机游走的算法。后面Andersen and Lang改进了这类方法,可以从一堆seed sets出发而不是单单一个顶点。此外,Andersen还试图在随机游走之上加入re-start(即个性化的pagerank)。

再需要提及的就是在动态网络(dynamic network)之上的community discovery——不同于静态网络,动态网络是本身一直在变化的,正如我们一直在用的facebook、twitter这般。还有异质网络(heterogeneous network)和有向网络(directed network)。呃,这部分我就没细看了,貌似蛮复杂的样子...就是其中有一个Community-User-Topic(CUT)model看起来蛮有意思的,准备明天去找这篇paper读一下:

D. Zhou, E. Manavoglu, J. Li, C.L. Giles, and H. Zha. Probabilistic models for discovering e-communities. In WWW ’06: Proceedings of the 15th international conference onWorldWideWeb, page 182. ACM, 2006.

嗯,到总结了~前面一直在说的就是计算、计算、计算。

  • 可扩展的算法(scalable algorithms):这里主要是牵扯到分布式计算。multi-level类的算法是有分布式的潜力的,然后GPU和多核计算貌似也能对流算法(streaming algorithms)帮上忙。
  • 群落和其进化的可视化:可视化主要是可以帮我们更直观的理解动态网络的变化、提供分析的直觉、以及帮助验证分析结果。
  • 结合业务知识:这个也不仅仅是对这些群落识别算法啦,任何一个机器学习的算法都离不开基本的业务知识吧。
  • 排序和加总:基本上还是缺乏对于得到的群落之间的排序(打分)、加总的研究。

好了,到此为止~继续看其他paper去了。

Categories
读书有感

papers I read in eBay

只是罗列一些这一两年比较关注的具体领域。

  • 自然语言处理与分词:看了很多分词类的算法,从字符匹配、MMSeg、HMM,到条件随机场之类。主要是为了提取关键词作为regressors。当然做这个一方面是好玩(周围很多朋友都在玩),另一方面也是不想被专家忽悠...嗯。另外就是TD-IDF、余弦相似度这些纯粹是为了不被忽悠。
  • 稀疏矩阵:稀疏矩阵完全是从上面继承而来的,往往分词之后搞来一个很大很稀疏的矩阵,为了降低computational cost或者干脆就是考虑到computational capacity,这个不得不做,然后就可以开始奇异值分解了。后面恍然发现,这丫不就是adjancy list和matrix的区别么...顿时为自己的智商隐隐担忧。
  • 近似计算方法:主要是binning methods,起因是觉得teradata算variance比较慢,所以看了一下能不能先binning再算variance以节省计算时间(说白了就是在teradata现有的map-reduce上想个更好的办法)。实用主义嘛。最后的感想就是,其实对于variance这种linear method,分布式已经蛮成熟了,在每一个map步能降低的computational time还是有限的...
  • 异常点识别:这个主要是有段时间在研究怎么可以有效的去掉outlier,不让这些点干扰计算(尤其是涉及均值的)。当然基本的就是基于ranking,后面发现这东西水还蛮深的,牵扯到distance measurement,stratified sampling等等。
  • 分布式计算:有段时间想了解一下Hadoop map reduce,所以去看了一些基本的分布式计算的东西。好吧,其实我还是觉得hadoop接口不够那么人性化,基于java的东西我还一时半会儿搞不定(从伪代码到代码到命令调度及debug还有好长的路要走...)。
  • 实验设计:这个貌似一直都在断断续续的看一些文章,从基本的随机试验的思想到后面各种具体环节的实现,以及不理想状况下的一些修正(比如连续实验、网络中实验、spillover effects等)。最近在试图利用RDD来改善一些现有实验设计和评估,此外不时瞅一下有没有好玩的网络实验的机会。(对eBay 3.0无限期待中...)
  • 贝叶斯网络:从MCMC开始的吧,陆陆续续看了好多马尔可夫网络和贝叶斯网络的东西,什么Belief Propagation。当然这里面也包括了Conditional Random Field这些语音识别、图像识别的基本原理和常用方法什么的。这也有种不被专家忽悠的想法,毕竟看来看去也就是这几种常见的算法的不同应用嘛。(修PGM那门课真的可以列作年度噩梦之一了...)
  • 拍卖设计:这个完全是由于随便搜搜eBay基本上都牵扯到auction design,所以顺带看一下...总的大趋势还是排名在向一口价转变,多少也有种一手市场快速增长的感觉。哎,consumer theory大爱的东西啊。
  • 社群识别:最近遇到一些这方面的挑战...一方面是clustering,另一方面是sparcification。总的感觉是,无论是稀疏矩阵还是矩阵稀疏化,都是去除噪音找到有用信号的过程...
  • 协同过滤:其实collaborative filtering是很久以前看的了,当时工作需要(印象最深的就是IBM的三篇笔记)...现在感觉看过这类方法的好处就是,很多问题越来越能和后面接触到的直觉相契合,感觉很多具体的算法和想法实践都是在这个框架之下或简或繁的变化,万变难离其宗嗯。

总而言之,我觉得我越来越不像一个学经济学的孩子...可怜。好吧,这些最多算是紧跟潮流吧,很多东西回头看看也没觉得多有意思。

被一份工作逼到如此程度也算是奇葩了...哎。最近的感觉就是,我还是去关注一下business side的一些趋势吧,多看一些new business models,毕竟这才是真正创造出来价值的。

Categories
读书有感

最近在修的几门课...(Sep, 2013)

大家火眼金睛,微博上随便吱呀一句全都猜出来了...最近在修几门历史和艺术相关的课,总而言之就是我觉得我的人文修养实在是太烂了...工作之后的好处就是想学点什么就学点什么,自由的很,随心而至。

《史记》记载,秦始皇时期,“秦法,不得兼方。不驗,輒死。”。而我就属于那种死就死了吧...总是想学点好玩的东西的人。

现在在follow 的几门课是:

其他的边走边看吧,coursera上的课大都不长,可以一门一门慢慢来...

此外,刚留意到复旦吴立德老师的Elements of Statistical Learning又开课了,可惜我们搬离张江了哇...各种怨念中。