今天在想一个问题,我们设计了那么多数据挖掘的算法,各种各样的、借鉴各个学科方法的,最终到底是想做什么?预测,从我的理解来说。那么这些算法都是想干什么呢?以我的角度,他们是在“准确信息未知”的情况下,通过一些其他的方法模拟一个可能的路径,然后给出相应的结果。这里,尤以“推荐算法”为甚。最简单的,“购买过此商品的顾客xx%还购买过”,就是一种基于群体行为来预测个体行为的思路,虽然不知道主导一个确定的个体选择的究竟是什么。这类思路下的算法还有一个好处,放诸四海而皆准,不用过度关心每个个体的特性,只知道一个群体的路径就好了。鲁迅先生说过,“世界上本没有路,走的人多了,便成了路”。
这里不禁引出来一个经典的问题:上帝到底掷不掷骰子呢?简单的说,就是一定有什么东西是最核心的、确定的在一件事物背后么?还是所有事情都是随机的?这个问题一下子就牵扯到科学的定义和渊源:uncertainty到底是当前情况下的未知还是必然的存在,牛顿晚年怕也是纠结于这个问题投奔神学。从两三年前彭实戈老师演讲中扔出这个问题的幻灯片开始,它就深深刻在我的脑海里了。很多时候,真的,面对这个问题,觉得人类真的很渺小……
说到身段,今天听闻一位和我“弱连接(weakly linked)”的男士已然放下身段投身“鸭子”行业,稍稍惊讶之下我真的很好奇到底生活对他有多么的艰辛、让他可以这么勇敢的作出这么一个决定,毅然决然的放下所有身段。不知是不是社会更宽容了,女大学生卖艺又卖身已经稀松平常了,现在男的也不可阻挡滔滔洪流啊。生活果然残酷。可惜,“隔行如隔山”,我也只能在此妄自揣测,不知其中真由。
说到“隔行如隔山”,这种感觉,尤其在科学界为甚。Science,或者说 scientific research,在当今,实在是分工细的不能再细了,各个领域之间几乎没有多少可以互通的语言。以经济学为例,宏微观的巨大鸿沟就不说了,搞理论的和搞实证的相互看不起也不是不常见。很少有人,愿意放下身段、拿出时间,用心的去学习和体会另一个领域的人为什么从另一个角度来看待同样的问题,为什么对科学研究有着截然不同的评判标准。比如同样是数据分析,计量经济学对于“一致性”的极致追求,和数据挖掘算法对于预测精度的追求,这样不同价值观又是否有一些互补的空间?可惜,我认识的两个领域中的人,几乎没有人可以放下身段去另一个领域从头开始。
同样的感觉深深的刻在social network、我自己的研究方向。研究一个社会网络,谈何容易!研究对象是人,自然逃不开 sociology;而研究角度是经济,自然又需要很多经济学的积淀;最后,研究工具是网络分析,自然离不开图论、complex network theories等等。更具体的,某一个研究的实际问题往往离不开一个具体的环境,比如epidemics 等等学科的渗透。然而,各个学科之间,往往互不通气……哎,可怜我看paper的时候,各种期刊的paper一下子都扔过来,然后各种痛苦,感叹为啥没人把这些研究成果都串起来呢?follow这些东西好费时费力啊。
或许,有的时候,放下身段,确实太过于痛苦了吧!牺牲那么多短期利益,长期还是那么的不确定,呃……现代科学的进步真的是对人的要求越来越高了~