大数据架构商业之路:从业务需求到技术方案
上QQ阅读APP看书,第一时间看更新

icon1

第1章 抉择

上海,又是一个春天,阳光透过薄薄的窗帘,懒懒散散地洒入屋内。当一缕光线偷偷地爬上杨大宝的眼角时,他睁开了朦胧的双眼。

等等!杨大宝是何许人也?

杨大宝,姓杨名大宝,土生土长的上海人,从小就喜欢玩电子产品,大学专业是计算机科学,酷爱信息技术和互联网。自从大学毕业后,他就一直任职于一家大的IT公司。最近,他面临人生的一项重大选择。原来,有几位志同道合的朋友想拉他一起开创自己的公司。大宝很清楚,这几年中国迎来了创业的黄金时代。李克强总理提出的“大众创业,万众创新”,明确了政策对创业的大力支持。而老百姓的生活水平也在不断提高,各方面的需求也在不断增加,同时各种风险投资也非常充裕。在这样的大背景下,大家的创业热情空前高涨,尤其是互联网,简直可以用“疯狂”来形容。大宝觉得这正是一个实现自己梦想的好契机。不过,放弃目前优厚的薪资待遇和受人尊敬的公司职位,和几个小伙伴去闯荡江湖,也是要冒不少风险的,最终是否能成功也充满了变数,这样做到底值得吗?大宝这几天夜不能寐,晚上做梦也要纠结一番。若不是淘气的阳光溜进来,可能他还要继续在梦里思考。

洗漱完毕,大宝一边吃着早餐,一边接着梳理思路。首先,创业的点子是不错的,主要思想是做线上线下O2O(Offline to Online)的社区商业模式:将大型社区周边的各种服务行业进行线上化,让用户足不出户,就可以叫外卖、订座、享受美甲、按摩等服务,还可以购买商品。用户的生活需求得到更大程度的满足,商家也可以吸引到更多的线上客流,而公司的平台也能从双方的交易中获得收益,形成多方互赢的局势,市场前景一片光明。其次,因为大宝是团队里唯一懂IT技术的骨干,那么公司里整个庞大的网络系统架构肯定会由他来负责。这几年的工作经历让他也积攒了不少设计和开发的实战经验。后端如数据库、ERP(Enterprise Resource Planning)系统、图片服务器,前端如会员注册、购物流程、页面展示等大宝都有很深入的了解。不过他还是隐约觉得缺了些什么。

吃完了早餐,大宝熟练地打开电脑,开始飞快地在网上查阅资料,钻研成功的互联网站点是如何设计和架构的。就这样,时钟滴滴答答,不知不觉一天过去了。随着夜幕的降临,望着窗外柔和的街灯,大宝深深地吐了一口气,“还缺一个关键词:大数据”,这是他一天研究下来的结论。

等等?大数据又是什么?

好问题,其实此刻大宝心里也没谱,但是他看到好多资料都反复提到这个词。他隐约觉得,如果没有摸清这点,对于这个初创公司而言,就会存在很大的不确定性。可是,目前创业的团队也很多,竞争相当激烈,从来都不缺好的创意,就看谁首先能做得出、做得好、做得快。没有太多的时间留给大宝了。那该如何是好呢?突然,大宝想到一个人,也许能为他解决心中的这个疑惑。

此人就是黄小明,是大宝的表哥。他是知青子女,从小随父母到武汉生活和读书,到16岁的时候回到上海,考入了知名的高校,并且获得了计算机科学的博士学位,可谓知识渊博。毕业后他在几家世界知名的互联网和电子商务公司任职,有十多年的科研和开发经验,目前正在带领团队攻关几个核心项目。

终于,在一个美好的周末下午茶时间,大宝约到了小明。大宝开门见山,针对自己目前的状况和思考的问题进行了说明。

“嗯……大宝,大数据的确是一个非常重要的领域,而且想要上手也有一定的难度。”

“哦,为什么呢?”

“大数据入门的门槛比较高,原因有几点:知识面非常广,技术含量也比较高,此外发展和更新的速度也快得惊人。更为关键的是,这些技术一般都是开源的,很多都需要自己摸索和积累。除非你们考虑直接使用一些大公司比较成熟的付费方案。”

“嗯,如果是创业起步阶段,我们肯定是不会考虑昂贵的商业解决方案的。”

“那问题就更复杂了……不过……”

“不过什么?”

“如果你肯花些功夫来学习,或许我能给你一些建议和启发。”

“哈哈,小明哥,搞了半天你是要自卖自夸啊!”

“这都被你看出来了。其实我最近正在整理这些年的心得体会,准备出版一本关于大数据的书,以便于团队的培养及业界的交流。那我借此机会,先和你讲讲,如何?”

“哇,那求之不得啊!”

“大数据其实是非常宽泛的概念,这里我强调的是如何获取海量的数据,并对它们进行有效的存储、处理和分析,最终让其服务于我们的业务需求。首先,要知道数据的来源非常关键,没有数据就没有生产的原材料。所以我考虑先阐述什么是站外和站内的数据收集系统,以及哪些开源工具可以帮助我们。对于收集到的数据,在第一时间我们要存储它们,然后介绍最近流行的分布式存储系统,确保辛辛苦苦采集而来的数据不会丢失。并说明对于数据,可以进行哪些基本的处理,以便产生我们所期望的一些数字统计、内容转换等结果。当然,还有很多高级的技术能够让数据产生更大的价值,如信息检索和数据挖掘。接着就是信息检索领域了,包括搜索、推荐、广告等应用。对了,数据挖掘的概念、基本流程和机器学习的主要算法也很重要。有了这些基础之后,还要考虑算法、模型等处理的效果和性能问题,衡量其是否能达到设计的预期。最后将上述知识点串起来,给出全局的概览框架。你看,这样的逻辑顺序你能理解吗?”

“其实,都不太懂……你还是现在就开始教我吧,从你刚说的最基础的开始吧!”