1.3 数据相关从业者和角色
大数据时代,数据已经变为生产资料,但是数据真正从生产资料变成生产力变现必须借助专业数据人员的帮助。
下面结合数据流程图介绍数据相关的主要从业者和角色。
1.3.1 数据平台开发、运维工程师
数据的埋点、采集传输、存储处理,乃至后续的分析、挖掘、数据服务等都离不开专业平台和工具的支持。而这些正是数据平台开发工程师和数据平台运维工程师的职责。
数据平台开发工程师以及数据平台运维工程师负责开发并运维专门的埋点工具、专门的数据同步工具、离线计算平台(如Hadoop、Hive等)、流计算平台(如Storm、Spark、Flink等)、数据存储工具和平台(如HBase、MySQL、Redis等),乃至分析师使用的数据分析平台和算法工程师使用的机器学习平台等。这些专业性的支撑平台是构建数据平台的基础设施,也直接关系着最终公司数据平台的成败、成本、效率和稳定性。
Hadoop、Hive、Spark、HBase、Kafka以及近一两年的Flink、Beam等,诸多开源数据框架的出现让人眼花缭乱,但本书主要面对的是数据开发工程师。数据开发工程师应该了解这些技术,知道其后台原理和适用场合,然后合理利用这些技术,达到构建数据平台的目的。
大数据和云计算是相辅相成和自然的一体选择,随着企业越来越多的系统运行在云上,企业的各种数据也都存储于云上,基于云计算的大数据平台工具也自然而然地快速得到发展。主流的国内外云计算公司(如阿里云、亚马逊、微软、Google等)都提供了云端的数据处理平台和工具。随着企业IT系统的上云,笔者认为未来云端的数据平台和工具将成为主流。
1.3.2 数据开发、运维工程师
数据开发、运维工程师是本书主要面对的对象,也是一般企业里构建数据平台的中坚力量。
❏ 数据开发工程师需要和产品经理、数据分析师沟通确定埋点需求,并具体对接前端开发工程师和后端开发工程师确定数据接口,从而将数据分析需求落地。
❏ 数据开发工程师需要根据离线数据、实时数据、近线数据的时效性要求,选择恰当的离线和实时数据同步工具来采集与同步数据。
❏ 数据开发工程师需要对采集和同步来的原始数据进行加工处理、合理数据建模并写入数据仓库中。
❏ 数据开发工程师需要设计开发实时流处理任务,提供实时数据指标并提供在线数据服务。
❏ 数据开发工程师必须严格保证数据加工的质量和数据的口径,确保下游看到的数据是高质量和一致的。
❏ 数据开发工程师也通常是数据咨询的集中点,数据是否能够拿得到?数据在哪里?数据口径如何?数据质量如何?
❏ 数据开发工程师向下对接数据平台工程师,向上对接数据分析工程师、算法工程师和业务人员,是使用数据的窗口和中枢。
❏ 数据开发工程师也是公司数据资产的管理者,保证数据被合理分级、组织、使用、安全保存和稳定可靠。
1.3.3 数据分析工程师
数据分析工程师是企业和公司“看”数据的主要窗口。随着数据化运营思想以及数据驱动产品开发的日益深入,数据分析工程师在一个公司或项目中的地位越来越重要。
数据分析工程师需要将公司的业务运营报表化,并抽取出关键运营指标给公司和部门管理人员做决策参考,以监控日常公司和部门的运营情况。
数据分析工程师也需要给产品的优化提供数据支持,并用数据验证产品经理的产品改进效果。
数据分析工程师是业务和数据的桥梁,数据分析工程师不但要了解数据,而且必须非常熟悉业务。此外,数据分析工程师还必须具有很强的表达能力和总结能力,能将关于业务的洞察以恰当的方式清晰明了地传递给决策人员、业务人员和产品人员,供决策和运营分析使用。
数据分析工程师也是数据开发工程师最为紧密的合作伙伴之一。
1.3.4 算法工程师
算法工程师使一个公司和企业应用数据的能力不局限在“看”和分析上,而是能够直接变现应用在生产系统和产品上。
比如Google的PageRank算法,正是有了PageRank算法的发明,才使得网页重要性排名变成可以工程化的现实,也才奠定了Google搜索引擎和Google公司的成功基础。
这样的例子还有很多,比如淘宝的“千人千面”个性化推荐系统,其中的推荐算法大大提高了用户的转化率,直接提高了整个网站的GMV,也直接带来了经济效益,目前推荐系统已经成为绝大多数电子商务网站的标配,而这都离不开后台算法工程师的直接贡献。
并不是每个算法工程师都要发明算法,但他们需要熟悉常见的各种算法并了解其适用场合,需要查阅文献和论文,时刻关注业界进展,并将它们应用在业务实践中。
算法工程师必须具有一定的编程和工程能力,能够将构建的算法用代码实现,并在数据集上测试验证,然后根据效果进行相应的算法调整、参数调优等,如此反复,这就构成了算法工程师日常的主要工作。
1.3.5 业务人员
一个公司和部门的分析师人数是有限的,固定每日运行的报表也是有局限性的,业务人员经常发现自己的数据分析需求处于分析师排期甚至无法支持的境地,这个问题的最终解决方法是业务人员自己具备数据分析的能力。
随着自助式数据分析工具的日益成熟,人人都可以成为数据分析师!
从数据平台的角度来讲,数据平台团队应该提供自助式数据分析工具,赋能给每个业务接口人或者业务分析人员,因为业务团队才是最了解自己业务的,如果有了自助式分析工具的帮助并具备了一定的数据分析能力,对于业务人员来说,无疑是如虎添翼的。