落园 – Page 41 – 来者皆客

一些审视

大概有一个多月，一直在酝酿这么一篇文章。有很多的东西想说，却每每到口边欲言又止。总归沉淀的久了，该说还是要说说吧。

1. 关于大数据

我是莫名其妙的就被拽入这个领域的。虽然我也经常在一些不得不包装的场合不停的用到“大数据”这个词，但说到底我还是觉得它是硬生生的被炒作出来的。从2011年到现在，有幸在国内国外开了无数的跟“大数据”有关会议，有小有大，有偏学界有偏业界，可是越开越麻木。以至于到最后，我关心的问题就成为了几个：

有什么新的数据被搜集了吗？（比如江南春去扫小区垃圾桶..）；
有什么新的领域被攻陷了吗？（比如某些传统行业，如劳动密集型的制造业、餐饮业、个人金融）；
有什么新的数据产品出炉了吗？（比如基于数据魔方的新的应用）。

曾经有人戏谑般的问我，“你一个做分析的关心这些high level的东西干啥？”，我的回答很直白，“为了保证不让自己失业”。当然这话有五分打发之意，归根到底的原因可能是，我在寻找灵感，在试图最大化分析的价值，在别人的失败中学习经验（输家往往比赢家更有意思）。换言之，我没打算一直做分析。自从在eBay深度接触了某些做事极端细致的同事之后，我觉得这个领域做到极致也怕就是如斯了。拼不过。

有些问题越来越不关心，因为从分工的角度来看绝非我的比较优势。比如，XX架构改善了数据库存储、查询；XX模型经过某些改进获得了几个点的提升；XX产品可以支撑更大量的数据和更好的实时并发性（这些东西对我来说，有就用，没有也不强求）；XX平台实现了XX算法（没有成熟的接口我是不会去碰的）。可能对于数据分析模型的理解（此处单指统计或者机器学习模型），我已经过了那个狂热的沉浸于美好的证明或算法无法自拔的阶段。从一个更高的角度来看，基础设施尚未建设完成（更广泛的数据源搜集、聚合，以及强有力的分析平台建立），谈那么多奇技淫巧有什么用？每每看到BI这个词，就想吐酸水...平心而论，eBay的基础设施建的还是比较好的，一个数据仓库就有几百人的技术团队在维持。

总结一句话：路漫漫其修远兮，做的好的就那么一两家。单单靠分析赚钱没那么容易，先把人才的缺口补上吧。

2. 关于分工和角色

说分工之前，先说说现在的工作。在eBay，听起来很曼妙的两个音节，却很不幸的在它的海外研发中心。若我是个工程师研发产品也就罢了，可惜还在分析这种需要跟业务部门频繁交流的岗位。当然做什么事情都有好和不好的一面，没有绝对的。只是当你还可以选择的时候，当你处在一个不同的职业发展阶段的时候，会有不同的诉求。

回头看，如果我知道现在的工作是这样的模式，我还会在一开始如此选择吗？会的，我很无奈，但没有更好的选择（当时下决心一定要去一个英文环境）。“不畏浮云遮望眼，只缘身在最高层”。那个时候位置太低、浮云太多，很多事情看不清楚。我觉得我很幸运，毕业之后的两份工作都没有让我后悔过。

eBay对我的最大改变就是，让我重新拾回了很多技术细节。比如，对于分布式的理解越来越深，parallel SQL 越写越熟，R的某些包越用越顺手，Shell和SAS被重新拾起，诸如此类吧。这也是我当时离开咨询的目的——做pre-sale support、跟客户天天腻在一起，没有脚踏实地的感觉，每天脑袋瓜子里想的都是“客户到底是怎么想的”，每天都在做各种各样的利益分析。时间久了，觉得每天都在跟演戏一般。

可是在分工链上，技术绝非我最擅长的。开什么玩笑，一个直到研究生都没怎么受过正规编程训练的人，怎么可能拼得过那些国内顶尖学校CS或者EE出身的、一直专注于此的精英们？就算勉强加上模型这块儿，就算凭着还算可以的数学基础我事后补修了很多门机器学习和统计学的课，我也不觉得我能胜得过那些一早儿统计和计算机兼修的有志之士们。太多东西不是纯粹智商和努力可以弥补的，时间是不可逾越的鸿沟。当然如果下定决心一直做下去，也未必没有成就——可是要我抛弃心头挚爱的经济学，做与之完全无关的事情，我做不到。

有个很好玩的词儿叫做“street sense”，我也不知道怎么翻译为佳。有点类似于soft skill的感觉。在我的同事中也有少数这方面很强的人，能明显看到他们的成就卓然不同。对我来讲，这样的感觉或许更佳吧。

3. 关于积累

工作久了，很多人就会跟你说“工作经验比学历更重要”。我的感觉是，看哪个是短板吧？两个还是均衡发展比较好。要不在labor economics之中，也就不必把experience和years of study都作为回归变量了。

工作经验是个很神奇的东西。一方面他会加快你做特定事情的效率（指数式），一方面他也会束缚你的思维。周围看到了许多从技术转到管理岗一开始很不适应的案例。思维方式完全不同嘛。

我个人喜欢把工作经验分为两部分：广泛适用的经验和内部适用的经验。在一个企业一个部门，其实积累的更多更快的是更适用于本部门的一些经验，这两种经验发展不均衡在那些一毕业立刻进入一个企业、一直没有离开过的人身上尤甚。实话讲，如果想在一个大企业里面很快的发展，内部经验尤为重要。Fit the culture。而广泛适用的经验其实对于适应更多的环境、岗位更重要。把赌注都压在一个篮子里面是不明智的...

4. 关于野心

我一直觉得我是一个不安分且具有野心的人。不过时间会把人的奋斗精神消磨，尤其是在一个很容易就活的比较舒服的环境中。

可是当太多事情不能控制，一切浮华便如过眼烟云，与己无关。

Tags 云烟, 分工, 分布式, 分析平台, 咨询, 基础设施, 大数据, 审视, 工作, 数据产品, 数据仓库, 极致, 比较优势, 灵感, 积累, 经验

事儿关经济

新媒体营销：社交网络的口碑效应与广告投放策略——一定要投放给大V么？

Post author By Liyun
Post date October 12, 2013
7 Comments on 新媒体营销：社交网络的口碑效应与广告投放策略——一定要投放给大V么？

这期AER里面的一篇paper看起来蛮有意思的——

Word-of-Mouth Communication and Percolation in Social Networks, by Arthur Campbell

整篇文章非常technical，纯纯的theoretical research。不过有些直觉和结论蛮有意思的。我就试着小小的讲解一下直觉。

设想这么一个情景：有一家厂商试图向一群人推销一样商品，幸运的是他知道这个网络的结构，所以作为新媒体营销的一次尝试，他决定暂时不采取大范围投放广告的方式，只接触部分人然后依靠大家的口口相传进行产品营销。只有获得该消息的消费者才可以购买商品。对应现实中类似的情况，就是大家在微信上投广告，然后只能借助朋友之间的相互转发或者群内转发来影响其他用户。

在这样的情况下，作者证明，借助口口相传的情形相比于直接全面投放广告而言，消费者的需求更有弹性。这样的结果就是，这个厂商的定价会相应的变低，以吸引更多的消费者来攫取利润。

群聚效应：再复杂一点的情况就是，人们对于一件商品的价值估计可能和周围朋友的数量有关。比如周围朋友很多的时候，人们对于一件漂亮衣服的估值就可能更高（炫耀嘛），而一款集体游戏的价值可能也展现的更充分。出于这样的考虑，在一小群人中，便会出现需求曲线的弹性远远低于全面投放，从而厂商得以制定一个更高的价格。如果一群人是因为兴趣相投偏好相似而聚在一起（物以类聚），那么这种需求的刚性可能会更为明显。

分散的群落：再想一想网络的结构。如果这个网络是相对而言较为割裂的（人群与人群直接交流不多），那么由于信息传播的不充分，整体的需求曲线会变得更加有弹性，整体需求也会下降，导致此时厂商不得不降价来实现利润最大化。这可能和直觉上大家觉得既然人群之间信息传播不充分，便可以实现群落之间的价格歧视——事实上，可能人们对于商品的价值估计受这样的网络割裂影响更大，所以大家多少会有一点观望心态。

广告投放策略：在有口碑效应存在的情况下，口碑效应和直接广告投放会成为“策略互助” (strategic complements)——即他们彼此之间会相互加强。因此最优策略可能是，如果厂商希望低价买更多的人，那么他们应该将广告定向投放给那些相对而言较为边缘和孤立的人群，以期克服网络中信息传播的障碍，实现利润最大化。这和我们传统的借助网络营销中一味的去找"大V"转发的策略相悖而驰。如果厂商只希望一小群人以高价购买，那么他们应该投放广告给那些热门用户。所以，取决于具体的商品和厂商的战略布局，借助社交网络营销可能应使用不同的策略。

---------------------------

最后的废话：这篇paper居然是发在AER而不是Marketing Science上，多少有一些风向变化的感觉。看看最后这样的冲击会积累到多大吧！

Tags 口碑效应, 大V, 广告投放, 微信, 微博, 新媒体营销, 社交网络, 策略互助, 网络结构, 群聚效应, 营销

网络新发现

R+3D打印=可爱的网络模型

无意中刷feedly刷出来的...

这货居然是打印出来的...虽然大多数3D人偶神马的都很丑，这个网络模型倒是还可以看看的。貌似可以3D打印一些R会议纪念品什么的...

原文在此。作者用的是iGraph，然后在Shapeways上注册个帐号就好了。设计图vs实物图见下。

Tags 3D打印, igraph, R, 网络模型

日常应用

七彩琴键图...（via ggplot2)

这个纯属做出来卖萌的...只是画出来有高有低比较像琴键的感觉，又按照类别填了一下颜色，所以再卖弄一下来个好听的名字——七彩琴键图。

数据比较敏感，所以很多信息都删掉了...大概还是可以看出来横轴是时间，纵轴是增长率。增长率大于阈值40%则100%上色，否则设为半透明。颜色是ggplot2自己上的，还是挺美观的...从上而下，各个类别的表现比较容易直接区分，这也就是这张图的目的。此外标注了一些重要日期。

可能一般画增长率都会画折线图吧，我只是觉得同样的数据折线图画出来大起大落的太丑了，还是这样好看一些...

最后按惯例，放上代码。其实很短...

library(ggplot2)
require(scales)

# growth
ggplot(q4_yoy, aes(x=DT12, y=ll, color=NULL))+
geom_bar(stat = "identity",aes(fill=Vertical,alpha=ll>0.4))+ #柱状图，然后判断是否大于40%
scale_y_continuous(labels = percent_format())+ #纵轴改成百分比
facet_grid(Vertical~.)+ #分类别画出来
geom_hline(yintercept=0.4,alpha=0.9,color="grey",linetype="dotdash")+ #40%增长率的水平线
geom_vline(xintercept=as.numeric(as.Date("2012-10-31")),
alpha=0.5,color="red",linetype="dotdash")+ #一些重要的日期
geom_vline(xintercept=as.numeric(as.Date("2012-11-22")),
alpha=0.5,color="red",linetype="dotdash")+
geom_vline(xintercept=as.numeric(as.Date("2012-12-25")),
alpha=0.5,color="red",linetype="dotdash")+
geom_vline(xintercept=as.numeric(as.Date("2012-09-22")),
alpha=0.5,color="blue",alpha=0.5)+
#   annotate("text",label="Sep 22",x=as.Date("2012-09-22"),y=-0.5)+
theme_bw()#黑白底板

Tags ggplot2, R, 七彩琴键图, 增长率, 柱状图

日常应用

ODBC(Teradata)和R连接常见问题

Post author By Liyun
Post date September 24, 2013

以前总结了一些R、SAS和TD彼此之间数据导入导出的办法，可是实际使用中还是会碰到各种各样的问题...问的人多了，就多少攒出一些FAQ放在了内部的wiki上。

还有一些问题估计大家都会遇到，所以也摘到blog上来好了。一开始用英文写的，简单翻译一下，不全翻译了。首先是通过RODBC连TD的一些常见问题，不知道是不是通用于其他ODBC driver...

Q: I cannot load RODBC on my own computer (not on R servers)... what can I do?
A: Try to debug in these steps -1) 　Check if you have installed the 64-bit version of Teradata ODBC driver on your 64-bit OS. If not, download and install these three packages here: http://downloads.teradata.com/download/connectivity/odbc-driver/windows（保证R、操作系统和ODBC driver位数一致，如果是64位的操作系统就装一套儿64位的吧...上面那个link是64位TD ODBC Driver的下载地址）。2) Open your 64-bit ODBC administrator and configure the TD server DNS. （在新的ODBC中配置server地址）

3) Close and re-open R again. （重启R，这步一定不能省）
4) If you still have problems, use R 2.*** instead of R 3.0+ （R 3.0以上版本有时候会莫名其妙报错，如是，改用2.15+版本吧。）
Q: How can I call R in the command line (to schedule a recurring job)? （怎么run batch job?）
A: You can call RScript directly in your command line. If failure, you need to add R's path to your system environment variable - PATH. e.g. C:\Program Files\R\R-2.15.2\bin （设一下环境变量）
Pay attention to its parameters. Also, you can save the log. A sample command is as follows - （命令行类似如下）
```
Rscript --no-save --no-restore --verbose "/home/Liyun.Chen/R/recurring/recurring_dashboard_by_week.r" > outputFile.log 2>&1
```
（记得存个log）

暂时就是这些...做个存档好了。

Tags 64位, FAQ, ODBC, OS, R, RODBC, Rscript, teradata, Wiki, 数据库