Categories
读书有感

美国养老金体系(401k)的一些经济学研究

最近在家里遵医嘱养伤,闭门不出,倒也是这个特殊时期最好的相处形式。百无聊赖,只能看书以解乏。前面开始读Saez的一些文章,后面索性去扒了一下他这学期的课,系统地看一下public economics(公共经济学,基本就是政府对于经济的各种干预,有别于political economics,政治经济学,主要是研究制度的)这方面的一些研究。(题外话,最近还在看周雪光老师的《中国国家治理的制度逻辑》,也是讲政府如何管理一个国家的,很有中国特色,可以作为美国小政府 vs 中国大政府的补充。等我看完了再另写一篇感受。)

这门课覆盖的主要是税制,因为政府主要是靠征税获得收入(卖地这个好像在美国不是一个选项),从而来实现公共物品的购买(比如修路,军队),以及收入再分配。我还没细细看完每一章节,不过先开始看的反倒是这门课最后一块儿,养老金体系的设计。如果换做我还在读书,那看这些政策可能就是隔岸观火,虽然可以解出来一个数学上的最优选择,却不见得有什么直觉。在美国生活了五年多,多少对这个体系有着自己的理解了,然后再去看学术方面的论文,倒是更容易代入自己的实际体验。

先简单地啰嗦一下401k和IRA,这两个美国最流行的私人养老金账户。以前在中国工作的时候,强制缴纳的是公共账户的养老金,以及公积金。美国对应的则就是Social Security(社会安全金)和养老金的私有账户(401k、IRA之类)。虽然社会安全金是超过2/3美国老人的主要收入来源,但是其数目并不多,而且基本是大锅饭的概念,只能保证最基本的生活水平。退休金则是真正设计来平缓一个人一生的消费,使得其靠这笔钱可以老有所养。

值得注意的是,美国七十年代以前最流行的其实是pension(defined benefit,简称DB,政府或企业的退休金)。相较而言,私有养老金则称为defined contribution,简称DC。这个和私有账户最大的区别是,pension由雇主全权负责承担投资风险,而私有账户则由个人承担投资风险。pension一般是按工作贡献来支付的,所以会跟工作年限、收入等等相关。而私人养老金则是由个人自己存缴,由个人选择投资选项,所以退休之后的账户收益也就取决于个人的存款意愿和投资决策。pension最大的风险就是如果雇主倒闭了,那么可能就没有退休金了。而私人账户则不存在这个问题,盈亏自负。

很多人可能有一个模模糊糊的印象,“美国人爱花钱不爱存钱,他们的钱都是借的”。某种程度上这可以被一部分数据佐证。所以401k和IRA在设计的时候,最重要的激励就是税收优惠。401k前19, 500美金(2020的限额)是可以税前支付的,也就是说这部分钱在当年不需要缴纳个人所得税,其投资收益也是不交税的。IRA也有类似的税收优惠,所以听起来,那肯定是可以存啊。不过也不尽然,401k和IRA在短期之内的流动性都是受限的,59.5岁之前提出是要额外缴纳10%的罚金的。所以整体看来,401k和IRA的设计都是为了鼓励人们现在存钱未来花,而这个未来则是60岁左右的退休年龄。401k另外一个特色就是一般有雇主的match——比如雇员存相当于工资3%的数额,然后雇主也存进去3%,这加起来的6%都是属于个人的,算是公司基本福利之一。美国雇主的平均水平是match 6%的一半,所以还是3%,不过要求雇员要自己存6%才可以。

啰嗦了这么多,我并不是想跟大家建议如何存退休金。稍稍废话。一般说来,如果你每年攒下的钱直接存在没有利息的银行活期账户的话,那还是建议先把401k存满。但是如果有更高的流动性要求(比如攒首付),那么就见仁见智了。一般最少存到雇主免费match的那部分限额(match属于不要白不要的钱),然后多余的在19,500之内自由发挥了。这些都是最最基本的无脑选项。如果想进一步优化,那就要更多计算了。

那么从政府的角度看,401k和IRA存在的意义是什么呢?很显然,政府是想鼓励人们存退休金的。很多人都是一种今朝有酒今朝醉的姿态,等这些人到了无力工作的时候(退休年龄),他们的养老就成为了美国政府的负担,或者其他家庭及社会问题。为了避免老年凄惨的景象,工作年龄时候对401k和IRA的参与就变得额外重要。那么,401k和IRA真的有效地激励了人们去储蓄吗?

Engen-Gale-Scholz的总体数据表明,美国的储蓄率从上世纪70年代的10%已经降到了2000年的0%,虽然在七十年代末401k被引入作为新的养老金体系、且过去的几十年里面401k和IRA的账户存款金额一直在不断上升。猛地一看,那401k和IRA好像没什么作用啊。但是我们不知道的是,如果没有引入401k和IRA,那美国的储蓄率会不会降得更惨呢?此外,他们还发现,整体来说,401k和IRA加上pension账户的总额是挺稳定的,所以看起来好像只是“挤出效应”,即401k和IRA替代了原有的pension存款。

进一步研究401k和IRA其实挺难的,因为几乎没有办法来随机分配401k和IRA的参与条件从而直接估计401k和IRA的效应。退而求其次,可以通过observational data来做回归,不过由于缺失变量问题,回归的结果对控制变量的变化很敏感。再者,可以通过natural experiment来看,比如1982年401k和IRA项目从没有pension的人群扩展到所有人。可以算一个diffence-in-difference估计,不过好的数据也很有限。Poterba-Venti-Wise通过回归发现,符合条件的人会呈现更多的总财富,当然有控制一些相关的变量。但是这其中还是有自我选择的问题——好的雇主可能更倾向于提供401k,或者对财富更敏感的雇员会自我选择参与401k。此外,符合条件的和不符合条件的人们之间的财富鸿沟也是巨大的,比401k账户的金额大得多,所以很难说这到底是人们确实是增加了储蓄意愿,还是只是自我分群罢了。Gelber AEJ:EP ’11最近的研究利用了很多企业有1-2年的401k等待期间(刚开始不可以加入401k,工作几年之后才可以),作为一个外生的制度来源。结果不是特别精确(毕竟数据本身噪音很大),不过还是指向了“挤出效应”,即替代了其他本身所有的储蓄选项。

从制度设计的角度,有了401k和IRA,如何让人们参与进来呢?所以下一个问题是,什么激励可以有效地提高人们对401k和IRA的参与率呢?首当其冲的,自然就是雇主的match(配比存款)。免费给的钱,不要白不要对嘛。不过也很显而易见的,在match的比例过后,有一个很大的变化(即上两周提到过的bunching聚集现象)。对于match,大家最大的顾虑就是,这可能只是单单替代了本应有的其他存款,而不见得会增加人们的储蓄总量。此外,match可能是在扭曲人们本来的最优储蓄选择,不见得有效率。从雇主的角度而言,他们为什么提供match呢?一种解释是,401k为了保证公平,有一个 高薪职员 v.s. 其他职员的参与要求。如果非高薪职员参与率过低,那么高薪职员也不能享受401k 的好处,所以企业为了提高非高薪职员的参与率,便提供了match作为一种激励。另一种解释是,有一部分职员知道自己会有自我控制的问题(毕竟钱花出去比存起来爽),所以match成为了一种事前的激励机制,从而使得这部分人也主动储蓄。进一步的一些研究发现,match越简单越好,而且match比等效金额的事后返还(rebate)效果更好(人们的心理作用,对能立刻拿到手的反馈更明显)。

那么人们是否参与、存多少钱,真的是一个理性的选择吗?人大都有惰性,而退休金这套系统说实在的,其实挺复杂的,我也是看了很多分析才大概明白其中脉络。此外,说白了操作空间也就那么一点点,而人生则有诸多不确定性。与其纠结其中,很多人更关心的可能是如何“开源”而不是“节流”吧?下面就是一些人们很懒的证据。

  1. 很多雇主提供自动参与而不是手动的选项,即默认员工是参与401k和IRA的,要退出反而要有额外额操作。Madrian and Shea (2001)发现,自动参与极高地提升了短期参与率(+60%),并在长期之内保持了一定效果(+30%)。不过,大部分员工是并不会去也改变默认的储蓄数字,就算长期看来这样的选择并不是最优的。看到这里,总结出来的就是,人们非常懒,懒得去理解这套系统到底怎么运作,给什么是什么。
  2. 还有一种情况是雇主强制员工参与储蓄计划,分为两种形式;雇主默认存一定比例,和雇主强制从员工的工资中扣除一定比例。Card and Ransom Restat’11发现,这两种选择并不是等价的。如果强制从员工工资中扣除,每多扣除一块钱会减少自愿储蓄0.7块;而如果是自己强制存入员工账户,则每多存一块钱只会减少自愿储蓄0.3块。这一实证结果表明,强制储蓄并没有1:1的挤出自愿储蓄,而强制储蓄的形式也会有所影响。可能的一个解释还是,人们非常懒,懒得去看。如果从工资中扣钱了,那他们更有可能会注意到,从而调整自愿储蓄的部分。否则,就不理会了。

Chetty et al. ’14用丹麦的数据证实了另外一个层面,主动vs被动储蓄计划。在企业自动帮雇员储蓄和通过税收优惠激励个人储蓄之间,前者的作用要强得多,有85%的人非常被动,根本不关心。剩下15%会去利用税收优惠, 不过挤出的是他们本来的储蓄,而不会净增新的储蓄。Choi, Laibson, Madrian ’07也证实了人们的惰性——当雇主提供不同的投资选项的时候,人们往往是接受默认的安排。而在员工离职的时候,小金额的存款会被直接转入其个人帐户,结果人们往往将其直接消费掉而不是继续存着。

影响人们储蓄行为的另外一个因素可能是peer effect。如果周围的人都在存钱或者讨论这件事情,那么个人是不是会更有可能存钱呢?答案是肯定的。Duflo and Saez, QJE ’03发现peer effect对人们去不去参与关于401k的讲座是有效果的,而参与讲座本身、更多的了解401k的运作机理对人们储蓄的决定也是有效果的。只不过,相比于“默认选项”来说,这些效果都要小的多。正因为人们对待退休金储蓄这个决定有太多行为上的因素(懒)而不仅仅是钱上的考量,更便宜地促进人们储蓄的手段往往是简化流程或者其他手段来降低交易成本(比如学习401k如果运作也是有成本的),而不是单单提供金钱上的激励。

看完这一课,我最大的感触是,怪不得周围很多人对401k闻之色变。确实,像我这样在学校里面正儿八经学过一些财务知识和税法的,都觉得美国401k的设计其实挺复杂的,细细算起来并不容易。换成他人,花这么多时间和痛苦来优化一项未来都不知道会怎么样的决定,确实有点得不偿失了。默认就默认吧,不会太亏就行了呗。更有意思的是,每次我稍稍科普401k的知识,对方多多少少都有一副羞愧的表情,好像自己对自己很不负责似的。我想说,现在有数据了,其实人们都是这样!真花力气去搞这些事情的是极其少数,而且八成也没啥本质变化。除非真的对这个系统感兴趣,否则花太多时间可能真的是,不值得。

Categories
读书有感

有断点:Bunching还是断点回归?

最近看到微博上有人提到了Bunching,因其和RDD (regression discontinuity design, 中文一般译作断点回归,也有人缩写为RD)很形似,所以好奇心起,找了相关的论文读了一下。其实很久不看方法论的东西了,满脑子想的其实都是一些实践应用的问题。Bunching却是我孤陋寡闻了,可能其主要应用的领域(公共财政)我不是特别关心吧。

计量经济学里面有很多好玩的“术”,很多都是一张图讲清楚,比如断点回归,比如synthetic control(中文有时译作合成控制法),Bunching大概也可以算作此类。昨晚通读了一下Kleven (2016)的综述,觉得还是有些有意思的地方,就和RDD一起拿出来看看吧。搜了一下,相关中文文献寥寥几篇,可能跟国内做这个方向的学者还不是特别多有关。我没有去进一步阅读中文已经翻译好的内容,可能有所重复。本篇将将作为一篇入门谈谈直觉吧。

先来一段字意和翻译的理解。Bunching这个词上来就把我打蒙了。Bunch我知道,一“束”嘛,但是在这里到底是什么集成了一束?搜了一下,中文目前翻译成聚束效应或者群聚分析法。我其实感觉这个翻译失去了英文本身的直观味道。理解了方法之后,Bunching在这里的原意更像是一个“次优陷阱”导致的集中点,即因为现实的约束,人们的选择不得不集中于一点(有点像封顶工资),从而去看密度分布的时候,形成了一个有点像离散分布的才有的mass point(在这个点对应的概率大于0)。后面会细细分解。还有两个重要的名词也在这里说说,Kink points和 Notch points。我看到这里的时候感觉我是没学过英文,完全无法代入Kink和Notch的形象化原意是什么。后面看了一下,Kink其实和数学里面的尖尖的转折点很像,比如一条直线突然折了一下,那就形成了一个突兀的Kink point,在这点肯定是连续而不可导的了。Notch则取了其缺口的意思,在这里直接断掉了,不但不可导了,直接不连续了。咦,这不就和断点回归听起来很类似吗?简单用R画两张图意思一下。后文直接用英文原词不再翻译了。

图1:Kink point v.s. Notch point示意

在谈论方法论之前,不妨看看问题的来源。既然是经济学家搞出来的方法,那肯定是有现实问题作为背景的(上一个经济学家先于统计学家发扬光大的模型,大概要数工具变量 (Instrumental variable) 了吧?)。其实bunching这个问题来源于税收相关的研究。比如个人所得税实行的一般是梯级税率。以中国的为例,收入高出某一个阶段的部分,一般会征收更多的税率。值得注意的是,这里所说的是边际税率,而不是平均税率。超出36000但不到144000的部分征收10%的税率,但前36000只征收3%的税率,跟总收入无关。

图2:个人所得税的梯级税率(左:税率表;右:边际税率示意)

如此的梯级税率会引起什么有趣的后果呢?最早,经济学家关心的是收入税对于劳动供给的影响。理论上,劳动者实际关心的是税后的可支配收入。如果在下一个阶梯税率过高,那么劳动者可能就会减少劳动的付出,因为边际收益(实际的税后所得)在递减,而劳动者付出劳动本身的成本可能在上升(比如加班劳动的痛苦感)。Saez(1999)年开始研究这个问题,结果这篇文章直到2010年才发表,个中故事无从探知。(题外话,Saez 2009年就拿到了“小诺贝尔奖”克拉克奖,而同一批的法国经济学家,还有去年拿到诺贝尔奖的Duflo...外加新生代的Stantcheva,法国经济学家真的是对税收研究不浅。)

Saez发现了什么有趣的现象呢?图3基本可以描述这个机制。原理大致是,对于效率更高本可以赚更多钱的劳动者来说,由于下一梯级的税率上升导致他们税后收入的减少,使得他们对于劳动投入的积极性降低。对于刚刚高于临界点的某个区间的人们来说,他们的最优选择反而是封顶在临界点(比如梯级税率改变发生在临界点1000块,那么原本可以多赚10块的人,可能就只会赚1000块而不会为了多出来的10块付出额外的努力。直觉来说,有点小富即安的意思——劳动者心想,我已经赚了1000块了,够花了,干嘛还拼死拼活多赚10块钱,大部分还要交税!)。对于那些远远高于梯级点的人,他们也会依次减少劳动产出,只获取新税率下对应的最优收入(比如上例中,原本能赚1500块的人,可能只会去赚1400块)。这样Bunching现象的产生显然是由于税率的突然变化,而劳动者等效用曲线本身却是平滑的,一小部分区间内的人便因此被挤压到一个点上故而出现Bunching了。(啰嗦一句,等效用曲线是一个经济学的概念,大致可以理解为等高线,即在这个曲线上每个点带来的效用相等,而曲线的移动代表了更高的效用水平。故而,等效用曲线和外在约束直线的切点便成为了最优选择。)

图3:一张图讲清楚 Bunching
(左:边际税率变高使得更高效的劳动者选择减少劳动投入,封顶在kink point而不是原本最优。曲线代表等效用曲线,直线代表税收形成的预算约束;右:由于高效劳动者减少劳动投入,他们的收入在kink point聚集,直到更高效的劳动者收入下压到kink point附近,形成新的分布尾部)(图截取于 Kleven (2016),Saez (2010) 也有类似的图)

图3的右图形象地描述了Bunching带来的密度函数形状的变化,也成为了学者们热衷用实证数据来量化的政策的影响。在个人所得税这个例子中,Bunching反映的是劳动者劳动积极性的降低,从而降低了全社会劳动供给量。劳动供给减少了,最终社会的生产量(比如GDP)便会降低。对于政府而言,如何设计税收梯级税率以不至于太过于伤害劳动供给,便成为了一个有实际意义的优化问题。Notch针对的问题不是边际税率会改变,而是平均税率直接改变,那么就会形成一个“洞”。在洞左边,是Bunching现象,而洞的右边,会形成一条新的曲线,所以密度函数的形状会和kink有所区别,中间会有一段“空洞”。我好奇的主要是Bunching这类方法和RDD的对比,故而在此不多赘述Notch了。

那么Bunching和RDD之间又有什么联系呢?RDD其实研究的也是政策的断点:比如去年收入低于某个临界点,才可以被选中参加某些项目。摘一张经典的Mostly Harmless Econometrics书中的配图。图4可以看出,在x=0.5这里形成了一个能否获得干预的断点:高于0.5的人获得了treatment,而低于0.5的人没有获得。在这里,我们可以认为,0.49和0.51的人原本是很像的,就是因为这个treatment的效果,才导致了他们后面结果的不同。在这个局部,我们可以将其近似于一个随机对照试验 (randomized control trial, RCT)。如果结果是跟x高度(线性)相关的(或者可以用一个函数来拟合的),那么这样的treatment effect就还可以扩展到临界点稍微远一些的地方,从而实现了一个优雅的断点回归。

图4:断点回归设计
(Mostly Harmless Econometrics figure 6.1.1)

值得注意的是,RDD有一个非常强的要求,就是这个用于区分的变量的本身,不能因为处理(treatment)而改变,也不能被参与的个体而选择,即外生性的要求。有了这么一个外生性的约束,我们才可以进一步做因果推断。比如身高我们一般认为是天生的,而不是后天改变,那么如果以身高作为要求来事实某些侠项目,那么就是一个外生的改变。比如最近美国因为新冠疫情而发放的经济激励补助(2019年收入在10万美金以下的可以获得一些现金),其标准是过去的收入,已经不可能因为发放激励本身而改变了,除非人们去年就能预测到今年的变化并调整收入。而Bunching恰恰相反——政策本身是事先给定的,然后观察的正是人们对这些政策反馈而表现出来的个人选择。也就是说,在Bunching这里,政策不仅不是外生的,而恰恰我们就是要观察政策作为一个内生变量对于人们选择的影响。实证层面,Bunching只是基于理论假设,直接估计密度函数本身来计算对应参数。

看到这里,对比内生性和外生约束的迥异假设,Bunching若是和RDD混淆了,那么结果可能是灾难性的。比如有些网站的会员制度是跟活跃度等相关的,高级会员会有相应特权。这时要是上RDD,那岂不是疯了?这明明是一个激励制度的设计问题啊...就是需要设计这样的制度来激励人们变得更活跃。

此外,Bunching本身在实践中也是有着很多挑战的。最重要的,Bunching现象的出现也取决于决策个体到底有多少自由来改变他们的选择。比如领工资的人相较于自由职业者,他们对于自己收入的调节能力(合理避税)就要差一些。有趣的是,类似的政策在人们更有能力控制自己选择的情况,比如股票和投资收入税方面,Bunching现象显现地便更为明显——大量的人们聚集在某几个临界点附近。

Kleven (2016) 这篇综述里面提到了其他当前应用中的局限性,比如数据本身一般是政府管理数据(例如税收),而很难用于调查数据(受限于测量误差和样本量等)。此外,理性经济人自然是另外一个因人而异的假设。第四章还提到了一些量化本身的挑战,比如kink一般比notch可能更容易肉眼看出,效果也更明显;实际数据还有一些数据本身四舍五入带来的问题。

总而言之,Bunching是一个强烈依赖于经济理论模型本身的估计方法。事先通过理论模型推导出可能导致Bunching的点,才可以进一步去量化模型中的参数。相比而言,RDD其实对于经济理论模型的要求并没有如此之高,只要外生性满足,局部的推断还是相对简单直接的。

非要一句话总结的话,不是有断点就一定可以上RDD的。如果政策或者处理有可能不是外生的,那么请一定慎用RDD。

文末附代码。