数据分析从入门到进阶
上QQ阅读APP看书,第一时间看更新

1.4.4 高大上的统计编程技术

不知道读者有没有发现一个问题,那就是当你寻找数据分析相关的工作岗位时,基本上都会看见企业的任职要求中提到统计建模或数据挖掘方面的技能,同时也会附上应聘者应该掌握的某些统计软件(如SPSS、SAS、Python、R等)。上述所提到的4款软件,除了SPSS属于“傻瓜式”统计工具(即菜单式统计工具,无须编程),其余的三种都属于编程类统计工具。对于读者而言,是否掌握其中某个或某些工具的使用,以及对这些工具的使用熟练度是否满足企业的要求在求职过程和后续的工作中是非常重要的。

在日常工作中,比较常用的统计模型(或方法)包括数据的点估计、区间估计、方差分析、各种假设检验(如卡方检验、t检验、F检验、正态性检验等)、数据降维(如主成分分析、因子分析等);常用的数据挖掘模型包括预测类算法(如多元线性回归模型、决策树模型、随机森林模型、K近邻算法、支持向量机SVM模型等)、分类算法(如Logistic回归模型、贝叶斯算法、提升树GBDT算法等)以及聚类算法(如K均值聚类、层次聚类、密度聚类等)。在本书的第5章,将重点讲解Python的使用,包括数据的读取、清洗、整理以及统计模型的使用和线性回归模型的实战。利用Python构建模型的代码截图如图1-28所示。

图1-28 Python的操作界面