以前也说过,这个暑假过得相当的“充实”,每天白天8节课(其实我也是三天打渔,两天晒网),晚上回到家练习练习做饭,然后就打开本本开始忙碌的工作。一边看无尽paper,一边绞尽脑汁的搜数据,遇到问题开始到处请教,日子倒也颇为充实。
记得春天的时候写那篇关于FDI的破文章的时候狠狠的感慨了一番国内统计年鉴质量之差,大部分时间都耗在搜集数据上(尤其是把某些图片格式的数据手动输入到数据库里)了,实在是让人哭笑不得。这次写论文用到一些微观数据,其中一部分是鼎鼎大名的中国营养健康调查(China Health and Nutrition Survey,简写CHNS),虽然下载下来的都是SAS格式,但是借助stat transfer还是很容易就转到stata格式了(我算是被“威逼”+“利诱”彻底背叛SPSS了)。然后接下来,我就无语了,开始面对如山的变量……把问卷下下来,又把变量说明下下来,一个个对照着理解……好痛苦啊。
然后需要筛选变量了。按照欣欣姐屡次的提醒,乖乖的开始写do file。其实我还是习惯直接在命令行里面输入……
郁闷的就是对Stata的命令实在是太陌生了,不得不一次次的help。drop...keep...merge...一个个看下来,花了不少时间。开始残念那个叫做SQL的东西,开始回忆当时老老实实学习数据库的日子……怎么也是标准的计算机学院教材训练出来的,还是对于SQL最熟悉,虽然时日已久开始淡忘……
网上搜了搜,好像SAS支持SQL但是Stata并不支持SQL查询和操作,唉。虽然stata各种简单的函数简化了许多操作,但是至少应该保留一个sql接口供习惯sql的人来使用嘛。SQL多好啊,简单的语句组合就那么万能无敌……标准的数据库操作语言啊~
其实stata终归还是一个统计分析软件,并不是数据库管理软件,也就是说它的任务是“分析”而不是“管理”数据。但是我实在是不知道怎么把数据整理好再交给stata分析,只能在stata里面整理了。实在是为难stata,也为难我了。呜呼!
我想,当初要是考虑留下一个sql窗口,会方便许多吧。不知道是为了简化操作还是什么的,非要单独出来一些函数。唉。
也没什么好办法了,相比于借助其他DMS(Data Management System,数据管理系统)整理好再转到stata格式,我还是直接在stata里面操作好了。或许后者效率还是稍稍高些吧,毕竟原理都一样。只是期待,某些约定俗成的标准和规范,应该更为广泛的传承和延续,节省大家的时间,专注于研究而不是无谓的浪费在过程之中。
无论如何,我还是希望尽快的弄完数据这块,专心于经济分析中。
6 replies on “数据库规范与SQL应用[3rd week, July]”
R 可以读 SAS 文件,并且可以使用 sqldf 包来实现 sql 命令。
嗯嗯嗯,我觉得R也得如斯强大,但是还是希望能在stata解决,实在不行再动员R吧……
不知道学会烧啥好吃的菜了~~~ 😆 😆
呃,呵呵,还是很丢人的说,拿不出门面……
从北卡下载下来了CHNS的数据,格式严重不熟悉。我出校门较早,仅了解一点EVIEWS、SPSS,能够告知如何转换文件格式至EXCEL?务必感谢。
StatTransfer这个软件可以在各个格式之间自由转换。你搜一下吧,很多下载的。