1.4 第一个用Python实现的数据化运营分析实例——销售预测_Python数据分析与数据化运营-QQ阅读男生玄幻网

上QQ阅读APP看书，第一时间看更新

1.4 第一个用Python实现的数据化运营分析实例——销售预测

1.4.1 案例概述

本节通过一个简单的案例，来介绍如何使用Python进行数据化运营分析。

案例场景：每个销售型公司都有一定的促销费用，促销费用可以带来销售量的显著提升；当给出一定的促销费用时，预计会带来多大的商品销售量？

在“附件-chapter1”中data.txt存储了建模所需的原始数据，get_started_example.py是案例完整代码。以下是原始数据概况：

❑ 来源：生成的模拟数据，非真实数据。

❑ 用途：用来做第一个销售预测案例。

❑ 维度数量：1。

❑ 记录数：100。

❑ 字段变量：第一列是促销费用，第二列是商品销售量。

❑ 数据类型：全部是浮点数值型。

❑ 是否有缺失值：否。

1.4.2 案例过程

下面逐步解析整个分析和实践过程。

第一步导入库。

本案例中，我们会使用四个库：

❑ Re：正则表达式，程序中通过该库来实现字符串分割。

❑ Numpy：数组操作和处理库，程序中用来做格式转换和预处理。

❑ Sklearn：算法模型库，程序中使用了线性回归方法linear_model。

❑ Matplotlib：图形展示库，用来在建模前做多个字段关系分析。

代码如下：

        import re
        import numpy
        from sklearn import linear_model
        from matplotlib import pyplot as plt

相关知识点：Python导入库

Python导入库有两种方式：

❑ 导入直接导入库，方法是import [库名]，例如import numpy；对于某些名称比较长的库，我们会使用as方法为其取个别名以方便后续使用，例如import numpy as np。

❑ 导入库中的指定函数，方法是from [库名] import [函数名]，例如from sklearn import linear_model；这种情况下也可以使用as为其取个别名方便后续使用，例如from matplotlib import pyplot as plt。

第二步导入数据。

本案例中的数据存于txt格式文件中，我们使用Python默认的读取文件的方法。代码如下：

        fn = open('data.txt', 'r')
        all_data = fn.readlines()
        fn.close()

第一段代码fn = open('data.txt', 'r')的作用是打开名为“data.txt”的文件，文件模式是只读，并创建一个名为fn的文件对象，后续所有关于该文件的操作都通过fn执行。由于程序文件和数据文件处于同一个目录下，因此无须指定路径；也可以通过相对路径和绝对路径来设置完整路径。

指定相对路径：'../data/data.txt'，含义是“data.txt”位于当前Python工作目录的父级目录中的data文件夹中。

指定绝对路径：'d:/python_data/data/data.txt'，该方式中的绝对路径需要注意使用正斜杠/，而不是Windows默认的反斜杠\；如果一定要使用反斜杠，那么需要写成’d:\\python_data\\data\\data.txt'，用转义字符表示。

在Python中反斜杠作为转义字符存在，使用\\的意思是这是一个反斜杠符号。表1-1列出了Python常用的转义字符。

表1-1 常用转义字符列表

第二段代码all_data = fn.readlines()的意思是从fn中读取所有的行记录，并保存到一个名为all_data的列表中。我们可以通过all_data[0]来查看该列表的第一个数据，Python中的数据索引都是从0开始，第0个索引值对应第一个值。

        In[3]:  all_data[0]
        Out[3]: '28192.0\t68980.0\n'

通过查看第一个数据，我们了解了数据的基本情况，这是一个由数字、水平制表符和回车符组成的字符串，两个数字之间使用\t水平制表符分割，每个字符串以\n回车符结尾。该信息会为后续做数据预处理提供思路。

第三段代码fn.close()的意思是关闭文件对象的占用。当文件读写完成后，需要及时关闭资源占用。

提示

不仅是文件对象，包括数据库游标、数据库连接等资源，在使用完成后都需要及时关闭，这样能减少对资源的无效占用。同时，这还能防止当其他功能模块对该对象进行重命名、删除、移动等操作时，不会由于文件对象的占用而报错。

第三步数据预处理。

在本阶段，主要实现对读取的列表数据进行清洗转换，以满足数据分析展示和数据建模的需要。代码如下：

        x = []
        y = []
        for single_data in all_data:
            tmp_data = re.split('\t|\n', single_data)
            x.append(float(tmp_data[0]))
            y.append(float(tmp_data[1]))
        x = numpy.array(x).reshape([100,1])
        y = numpy.array(y).reshape([100,1])

代码x = []和y = []的意思是创建两个空列表，目的是用来存放自变量和因变量数据。

代码for single_data in all_data的意思是通过一个for循环每次从列表all_data中读取一条数据，并赋值给single_data。

代码tmp_data = re.split('\t|\n', single_data)的意思是，分别使用\t和\n作为分割符，对single_data进行数据分割，分割结果赋值为tmp_data。

代码x.append(float(tmp_data[0]))和y.append(float(tmp_data[1]))的意思是将tmp_data的第一个值追加到列表x中，将tmp_data的第二个值追加到列表y中。在追加之前，我们先将每个数据通过float方法设为浮点型（数值型）。

代码x = numpy.array(x).reshape([100,1])和y = numpy.array(y).reshape ([100,1])的意思是将x和y由列表类型转换为数组类型，同时数组的形状是100行1列。

第四步数据分析。

到现在止我们已经拥有了格式化的数据，但这两列数据集到底应该使用哪种模型还未可知。因此先通过散点图来观察一下。代码如下：

        plt.scatter(x, y)
        plt.show()

代码plt.scatter(x, y)的意思是用一个散点图来展示x和y, plt.show()的作用是展示图形。代码执行后会弹出如图1-9所示的散点图。

图1-9 散点图

通过散点图发现，x和y的关系呈现明显的线性关系：当x增大时，y增大；当x减小时，y减小。初步判断可以选择线性回归进行模型拟合。

第五步数据建模。

建模阶段我们使用Sklearn中的线性回归模块实现，代码如下：

        model = linear_model.LinearRegression()
        model.fit(x, y)

代码model = linear_model.LinearRegression()的作用是创建一个模型对象，后续所有的模型操作都基于该对象产生。

代码model.fit(x, y)的作用是将x和y分别作为自变量和因变量输入模型进行训练。

第六步模型评估。

模型已经创建完成，本阶段进行模型拟合的校验和评估，代码如下：

        model_coef = model.coef_
        model_intercept = model.intercept_
        r2 = model.score(x, y)

代码model_coef = model.coef_的作用是获取模型的自变量的系数并赋值为model_coef；代码model_intercept = model.intercept_的作用是获取模型的截距并赋值为model_intercept；代码r2 = model.score(x, y)获取模型的决定系数R的平方。

通过上述步骤我们可以获得线性回归方程y = model_coef＊x + model_inter-cept，即y=2.09463661＊x+13175.36904199。该回归方程的决定系数R的平方是0.787641 468475 895 45，整体拟合效果不错。

第七步销售预测。

我们已经拥有了一个可以预测的模型，现在我们给定促销费用(x)为84610，销售预测代码如下：

        new_x = 84610
        pre_y = model.predict(new_x)
        print (pre_y)

代码new_x = 84610的作用是创建促销费用常量，用来做预测时输入。代码pre_y =model.predict(new_x)的作用是对促销费用常量new_x输入模型进行预测，将预测结果赋值为pre_y。代码print (pre_y)的作用是打印输出销售预测值。

代码执行后，会输出[[ 190402.57234225]]，这就是预测的销售量。为了符合实际销量必须是整数的特点，后续可以对该数据做四舍五入，使round(pre_y)获得预测的整数销量。

相关知识点：如何执行Python代码？

对稍微有些经验的程序员或Python工程师来讲这当然不是什么问题，但对第一次接触Python的读者来讲，这也许是一个需要补充的必要知识点。

对于Python代码，既可以只执行特定代码行/段，也可以执行整个代码文件。

场景1：执行特定代码行/段。

这种方式通常是以调试的方式逐行/模块运行代码，大多应用在单功能、模块的开发、调试和测试上。执行方式如下：

1）在Python命令行中执行：打开系统终端命令行窗口，输入python进入Python命令行界面，然后逐行或模块输入上述Python代码即可。

2）在IPython命令行中执行：在打开系统命令行窗口，输入ipython进入ipython命令行界面，然后逐行或模块输入上述Python代码即可。

3）在PyCharm中执行：PyCharm是本书推荐使用的Python IDE，笔者推荐使用这种方式进行代码功能开发和测试。打开PyCharm程序，第一次需要新建一个项目用来存储和管理所有即将开发的Python资源，Location（位置）指向本书的“附件”根目录，然后点击Create（创建）。如图1-10所示。

图1-10 在PyCharm中新建Python项目

创建完成后的PyCharm界面如图1-11所示，除了顶部菜单栏外，下面的内容区分为4个部分，从①到④依次是项目/结构区、代码区、调试区、智能提示区。

图1-11 PyCharm项目界面概览

❑ 项目/结构区：项目方式展示本项目所有文件、外部连接库，结构方式展示当前文件下所有的函数、变量等详细信息。

❑ 代码区：展示所有程序代码、注释的区域。

❑ 调试区：分为TODO、Console、Terminal三个模块，分别用于提供注释的TODO列表、调试和终端功能。

❑ 智能提示区：给出代码中可能存在的格式、引用、语法等方面的错误或警告信息。

在代码区，用鼠标选中要调试的程序，直接输入组合键ALT+Shift+E，然后在调试区可以看到该代码执行的状态。图1-12所示是程序调试执行结果。

图1-12 程序调试执行结果

场景2：执行整个代码文件。

这种方式通常将Python文件作为整体的运行代码，一般在单个功能或模块开发完成之后，在整体或多功能模块的测试、集成或程序间调用时使用。

1）在系统终端命令行中调用Python命令执行：打开系统命令行窗口，输入python +[python文件名称].py。图1-13为运行本章案例的Python程序文件，执行结果将先显示一个图形文件，关闭图形之后会继续运行显示预测结果。

图1-13 通过系统终端命令行中调用Python命令执行

2）在IPython命令行中执行：打开系统命令行窗口，输入ipython进入ipython命令行界面，然后在交互命令窗口输入run + [python文件名称].py，如图1-14所示。

图1-14 在IPython中执行Python文件

3）在PyCharm中执行：在PyCharm中新建项目后，双击左侧项目/结构区要执行的Python文件，右侧会显示对应的Python文件的代码内容。输入组合快捷键Alt+Shift+F10或通过顶部菜单栏“Run→Run”，在弹出的窗口中选择要执行的Python文件。如图1-15所示，程序文件执行后，会在底部调试窗口显示执行结果。

图1-15 在PyCharm中执行Python文件

在PyCharm中已经集成了IPython命令行和系统终端窗口功能，点击“Python Console”后的调试界面，默认调用的是IPython库；点击“Terminal”后的调试界面正是系统终端的命令行界面。读者可直接在此直接操作上述命令，实际上，这也是笔者着重推荐使用PyCharm作为IDE的主要原因之一，在一个工具里面可以直接实现不同的调试场景：

❑ 安装第三方库时使用pip命令或需要从终端调用命令时，可直接点击“Terminal”操作；

❑ 想要使用IPython的友好开发交互和提示功能，可直接在“Python Console”中完成；

❑ 想要完整查看Python项目资源并进行管理，尤其是代码审查等方面，PyCharm可以完美胜任。

1.4.3 案例小结

本案例看似篇幅很长，其实代码本身只有40多行，却实现了导入库、获取数据、数据预处理、数据展示分析、数据建模、模型评估和销售预测7个关键步骤，麻雀虽小五脏俱全。

案例场景虽然简单，但完整地演示了如何从输入数据到输出结果的整个过程，其中，我们用到了以下基础知识：

❑ Python文件的读取；

❑ Python基本操作：列表操作（新建、追加）、for循环、变量赋值、字符串分割、数值转换；

❑ Numpy数组操作：列表转数组、重新设置数组形状；

❑ 使用Matplotlib进行散点图展示；

❑ 使用Sklearn进行线性回归的训练和预测；

❑ 用print输出指定数据。

这是本书的第一个完整案例的目的是引导读者快速进入使用Python进行数据化运营的场景中来，因此笔者并不希望让读者陷入复杂的逻辑和太多知识当中，以下内容仅做拓展思考之用：

❑ 通过散点图初步判断线性回归是比较好的拟合模型，此时应思考，是否有其他回归方法会得到更好的效果，例如广义线性回归、SVR（SVM中的回归）、CART（分类回归树）等？

❑ 通过图形法观察数据模型只适合用于二维数据，如果数据输入的维度超过2个呢？

❑ 本案例中的数据量比较小，如果数据量比较大，假如有1000万条，如何进行数据归约？

❑ 除了案例中的评估指标外，还有哪些指标可以做效果评估？

本周热推：

Building Computer Vision Projects with OpenCV 4 and C++Learning Functional Programming in Go SequoiaDB分布式数据库权威指南类别不平衡学习：理论与算法 Computer Programming for Absolute Beginners