3.2 信息资源产业发展指数的测算方法
在明确信息资源产业发展评价指标体系的基础上,这一小节对信息资源产业发展指数的测算方法进行了说明。信息资源产业发展指数采用熵权法确定指标权重,通过TOPSIS模型对各地、各细分行业的发展指数得分进行排序。
3.2.1 指标权重的确定
信息资源产业发展评价指标体系的数据来源于国家及地方统计局公布的统计年鉴和各类经济、科技、工商统计年鉴中的客观数据,具体采用了TOPSIS改进方法和熵权法确定权重和排名。显示性指标权重详见表3-2:
1. TOPSIS模型及其适用性改进
TOPSIS模型(Hwang and Yoon,1981)即“逼近理想解排序法”,为有限方案多目标决策分析的一种常用的决策技术,是一种距离综合评价法。TOPSIS方法是通过计算各个评价单位到最优理想点及最劣理想点的距离得到该目标的综合得分,从而以此为依据对各个评价单元进行排序。TOPSIS方法的具体步骤如下。
(1)对n个评价单元选择m个评价指标进行综合评价,原始数据矩阵如下:
(2)在目标决策中,各指标的量纲不同,而且各指标变化范围有大有小,为较好地反映指标变化的实际情况,决策之前须将决策矩阵进行规范化,得到规范化矩阵:
其中,
(3)由各项指标最优值和最劣值分别构成最优值向量和最劣值向量:
其中,
(4)计算各评价单元与正负理想点的距离:
其中,表示第j个指标的重要程度;同时,通过计算过程可知,越大,越小,则该评价单元越优。
(5)综合评价指标的计算,计算评价单元i对理想解的相对接近程度:
其中,ci越大则评价单元越接近理想解,该单元越优。
(6)按ci由大到小排序,排在前的方案较优。
虽然,TOPSIS方法由于具有考虑了最优、最劣理想点,计算简单等优点被广泛应用于多属性决策问题当中,但是,由于传统的TOPSIS方法存在权重确定不够严谨及忽略指标相关性的问题,本书对TOPSIS方法做出以下改进:
(1)权重确定方法,现有权重确定方法基本可以分为主观权重和客观权重,本书基于Deng等(2000)的研究结论,在确定各指标权重的时候采用熵权法,保证权重的客观性及有效性。
(2)距离测度方法,本书基于Wang and Wang (2014)的研究结论,在测量目标点与最优、最劣点的距离的时候应用马氏距离。进行这一改进的目的是排除各指标之间相关性的干扰。
2.熵权法与距离测度方法的选择
熵权法是在客观条件下,由评价指标值来确定指标权重的一种方法,具有操作性和客观性强的特点,能够反映数据隐含的信息,增强指标的分辨意义和差异性,以避免因选用指标的差异过小造成的分析困难,全面反映各类信息。其思路是评价对象在某项指标上的值相差越大越重要,权重相应也越大。根据各项指标的变异程度,可以客观地计算出各项指标的权重,为多指标综合评价提供依据。计算公式为
其中,
另外,本研究应用马氏距离来测量目标点与最优、最劣点的距离。马氏距离是一种统计距离,首次由印度统计学家马哈拉诺比斯提出,表示数据的协方差距离,因此,它是一种有效的计算两个未知样本集的相似度的方法。由于马氏距离是基于变量间相关性进行测度的,因此,与欧氏距离不同的是它考虑到各种特性之间的联系并且认为这种联系是尺度无关的(scale-invariant),即独立于测量尺度。将马氏距离应用于TOPSIS方法中,原本的距离计算公式改为:
其中,zi表示第i个评价单位在各个指标下的评价向量;分别表示最优、最劣理想点;表示所有指标(n×m)的协方差矩阵。
同时,
值得注意的是,当协方差矩阵为对角阵时,马氏距离退化为欧氏距离,也就是说,当指标之间不存在相关性的时候,马氏距离与欧式距离是等价的,所以,欧氏距离实际上是马氏距离的特例。
3.2.2 缺失数据的估算
在对信息资源产业发展相关数据进行处理的过程中,个别地区或细分行业的指标所对应的数据可能存在缺失或失真的问题,这就需要对数据进行估算和矫正,以减少缺失或失真数据对信息资源产业发展指数的影响。从实际数据采集的情况来看,缺失数据主要集中在部分地区、部分行业的营业收入、从业人口等指标上。为了解决数据采集过程中所遇到的部分数据缺失的问题,本书针对不同的数据缺失情形,分别设计了不同的缺失数据估算方法与模型,如表3-3所示。通过多轮估算和微调,本书最后确定了指数计算所需的全部产业数据。