推荐序一
编程语言之于数据分析是必不可少的。对于一个数据科学的新兵,应该从哪门语言开始?摆在面前的选择很多:R,SAS,Python,C,JAVA,甚至Fortran。它们各有优势,也有不足。如果一定要选一个,我推荐R。有两个重要原因:第一,R是免费的,全球镜像,非常方便。第二,R的分析建模能力很强,部分得益于基础模块的完善,部分得益于整个统计学社区的支持。很多最新的分析方法、统计模型都是用R首先实现,并被开发封装成为程序包的。当然,这绝不是说R语言是完美的。它显然不完美,还有很多缺陷。但是,这丝毫不妨碍它成为你学习数据分析的第一门语言。正因如此,狗熊会(微信公号)决定要写一本关于R语言的书,要写一本带有狗熊会强烈DNA印记的R语言入门教材。但是,谁来写?谁来当这个“倒霉蛋”呢?
这个“倒霉蛋”不能是我。在狗熊会的团队里,我岁数最大,有耍赖皮的特权,当然不会“压榨”自己,我更擅长“压榨”其他小伙伴。那该“压榨”谁?只能是布丁(朱雪宁)。在狗熊会的联合创始人团队里,布丁的R编程能力公认是最强的。说来惭愧,我是布丁的博士导师,但布丁的理论功底似乎比我还好,而编程能力更比我高出不知几个量级。有时,我会有点懵圈,似乎没教过布丁什么东西,怎么就当了布丁的老师呢?她是怎么成长得如此优秀的呢?思来想去,或许我的一丢丢贡献在于点燃(或者加强了)布丁在数据分析中获得快乐。
布丁天生乐观,而且,她把数据分析的快乐完美地带入了R语言编程。单就汉字分词、频数统计,布丁竟然将之跟《张无忌到底爱谁》扯上了关系。这成了狗熊会第一个阅览量过万的推文。我和小伙伴们都惊呆了!说句实话,对此我很困惑。我认真看过这篇推文多遍,实在看不明白布丁在说什么。我对该作品的印象就是语无伦次,逻辑混乱,不知所云,各种差评。但是奇怪,熊粉们怎么就这么喜欢呢?也许是我老了吧。不得不承认,代沟是存在的。但是,我能感受得到,跳跃在R代码和《张无忌到底爱谁》文字之间的、布丁那肆无忌惮的快乐。对,这就是布丁的快乐、布丁之于数据分析的快乐。
还说汉字分词、两样本检验、逻辑回归,布丁将之跟《红楼梦作者之谜》扯上了关系,引得众多读者点评布丁的作品,其中既有普通熊粉,也有备受尊重的资深学者,布丁不敢怠慢,逐条答复。不得不承认,我有一点幸灾乐祸的窃喜。我想布丁的内心一定非常崩溃:“我就做了一个好玩的中文数据分析,纯娱乐项目,你们怎么当真了呢?”这就是布丁的快乐、布丁之于数据分析的快乐。
布丁是一个优秀的领导者。在她的周围,团结着一帮弟弟妹妹,他们一起构成了布丁小分队(或者叫“敢死队”)。据说,布丁对弟弟妹妹们“手段凶残”,“压榨”无数。但奇怪的是,弟弟妹妹们却非常喜欢这位学姐,亲切地称她为雪姨,并且坚定不移地跟随雪姨闯荡数据江湖。为什么?我斗胆猜测,原因还是快乐。大家在一起,互相学习,互相督促,一起享受数据分析的快乐,一起享受成长的喜悦。我很喜欢这样一个团队架构。碰到极具艰难的任务,我可以通过“压榨”布丁,布丁再“压榨”她的小分队,达到很高的团队执行力效果。这本书的出版就是一个很好的例子。这本书是我“强派”给布丁的,然后布丁把控整体设计以及很多核心内容,但是,还有很多内容是由其他小伙伴完成的,他们分别是(按姓名拼音排序):常象宇(政委)、成慧敏、范超、李宇轩、鲁伟、潘蕊(水妈)、王健桥、王毅然、向韵桦。对此,我一并感谢,并对大家处在狗熊会“食物链”的底端深表同情。
我是不是跑题了?布丁给我的任务是给本书写序,却谈到了食物链。不,我没有跑题。我想告诉大家的是,这本书的核心不是R语言,是快乐,是数据分析的快乐,是跟布丁学习R语言的快乐。
注释
[1]北京大学光华管理学院商务统计与经济计量系系主任,教授,博士生导师。