第四节常用描述性统计概念_证券投资基金基础知识-同人网

上QQ阅读APP看书，第一时间看更新

第四节　常用描述性统计概念

考情分析：本节主要介绍了集中常用的描述性统计变量，其中，考查的重点是平均值、中位数、分位数的概念、计算和应用，此外方差和标准差的概念、计算和应用以及相关系数的取值及其意义也是考查重点。在历次考试中，本节涉及的题目不多，一般不会超过2题。

学习建议：本节要求掌握的考点不多，但涉及的变量较多，各个统计变量的计算及所表达的意义容易混淆。因此，建议考生采用表格对比的方法，在比较中理解各个变量的应用和计算。

一、随机变量（★★★）

（一）随机变量的定义

随机变量X是指一个能取得多个可能值的数值变量。它可以分为两种。

（1）离散型随机变量，是指一个随机变量X最多只能取可数的不同值。比如，X只能取0或1。

（2）连续型随机变量，是指随机变量X的取值无法一一列出，可以遍取某个区间的任意数值。比如，X可能是大于0的数。

（二）随机变量的分布

（1）如果随机变量X是离散型的，且X最多可能取n个值，即X1，X2，……，Xn，则记Pi=P{X=Xi}是X取Xi的概率，所有概率的总和为：。

（2）如果随机变量X是一个连续型的，我们用概率密度函数来刻画X的分布性质。概率密度函数是用来衡量随机变量X取值在特定范围内的函数，其图像称为概率密度函数曲线。如图1-1所示，阴影部分面积表示变量X取值在（0.2，0.4]的概率P{0.2＜X≤0.4}。

图1-1　概率密度函数曲线

【例题1】对于离散型随机变量，如果变量个数有限，则各变量分布概率的总和为（）。

A.0

B.1

C.100

D.无法判断

【解析】本题考查随机变量的分布。如果随机变量是离散的，且变量个数有限（假设有n个），则各变量分布概率的总和为1，即。

【答案】B

（三）随机变量的数字特征与描述性统计量

研究随机变量分布特点的数值统称为数字特征，如均值、方差等。在现实世界中，由于随机变量通常是未知分布的，因而我们采取抽样的方法来估计它们。常用的随机变量的数字特征和它们的描述性统计量如表1-9所示。

表1-9　随机变量的数字特征与描述性统计量

名师点拨

在存在异常值、极端值的情况下，中位数能够免疫极端值的影响，较好地反映投资策略的真实水平；而平均数（或均值）则很容易受到极端值的冲击，使其对于数据的判别效果产生较大的误差。

【例题2】下列关于随机变量的数字特征的说法中，正确的是（）。

Ⅰ.对于随机变量X来说，它的中位数就是上50%分位数X50%

Ⅱ.在分析数据分布的离散程度时，方差与标准差的数值越大，收益率偏离期望收益率的程度越小

Ⅲ.在随机变量未知的情况下，用样本均值作为E（X）的估计值

Ⅳ.期望能够免疫极端值的影响

A.Ⅰ、Ⅲ

B.Ⅱ、Ⅲ

C.Ⅱ、Ⅲ、Ⅳ

D.Ⅰ、Ⅱ、Ⅲ、Ⅳ

【解析】本题考查随机变量的数字特征。在分析数据分布的离散程度时，方差与标准差的数值越大，收益率偏离期望收益率的程度越大，故Ⅱ项错误。中位数能够免疫极端值的影响，而期望不能，故Ⅳ项错误。

【答案】A

【例题3】假设某上证180ETF基金选择了100个交易日的每日基金净值变化的基点值Δ（单位：点）来估算每日的头寸风险，这100个交易日的每日基金净值从小到大排列为Δ（1）～Δ（100），其中Δ（1）～Δ（10）的值依次为：-13.21，-12.33，-11.61，-11.37，-10.56，-10.18，-9.25，-7.64，-6.26，-5.12，则Δ的下3%分位数和上1.5%分位数分别为（）。

A.-12.77；-7.64

B.-7.64；-12.77

C.-11.61；-5.69

D.-5.69；-11.61

【解析】本题考查分位数的计算。由题可知，Δ的下3%分位数就是Δ（1）～Δ（100）中第3（=100×3%）小的数Δ（3）=-11.61；上1.5%分位数为第1和第2大数字的均值，Δ（1.5）=（-6.26-5.12）÷2=-5.69

【答案】C

二、正态分布（★）

（一）正态分布的含义

当一个随机变量的取值受到大量不同因素作用的共同影响，并且单个因素的影响都微不足道的时候，这个随机变量就服从或近似服从正态分布。

知识拓展

正态分布是最重要的一类连续型随机变量分布，在金融市场上，股价走势很多时候呈现出“随机游走”的特点，这里的“随机游走”即股价的波动值服从正态分布。

（二）正态分布密度函数

如果连续型随机变量X的概率密度函数曲线如图1-2所示，则称X服从参数为（μ，σ2）的正态分布，记为X～N（μ，σ2），其中μ是X的期望，σ﹥0为X的标准差。其中，当μ=0，σ=1，即X～N（0，1）时，称X服从标准正态分布。

图1-2　正态分布概率密度函数曲线

如图1-2所示，正态分布密度函数的显著特点是中间高两边低，由中间（X=μ）向两边递减，并且分布左右对称，是一条光滑的“钟形曲线”。

正态分布距离均值越近的地方数值越集中，而在离均值较远的地方数值则很稀疏；这意味着正态分布出现极端值的概率很低，而出现均值附近的数值的概率非常大。同时图像越“瘦”，正态分布集中在均值附近的程度也越大。

另外，正态分布的分位数还可以用来评估投资或资产收益限度或者风险容忍度。

知识拓展

检验一个随机变量是否服从正态分布，可以绘制它的样本频率直方图，如果频率直方图呈现出钟形特征，可认为该变量大致服从正态分布。

【例题】某基金的月均净值增长率为10%，标准差为4%。在标准正态分布下，该基金有95%的可能性取得不少于（）的年收益率。

A.6%

B.10%

B.4.5%

D.3.4%

【解析】本题考查正态分布的应用。本题即求收益率的上95%分位数。由题可得，μ+μ0.95σ=μ-μ0.0 5σ=1 0%-4%×1.6 5=3.4%。

【答案】D

三、相关系数（★★）

（一）相关系数的含义

随机变量的相关性常用相关系数来表示。在证券市场上，相关系数从资产回报相关性的角度分析两种不同证券表现的联动性，通常用ρij表示证券i和证券j的收益回报率之间的相关系数。

（二）相关系数的取值

相关系数的绝对值大小体现两个证券收益率之间相关性的强弱。一般来说，绝对值越大，表示相关性越强。

相关系数ρij的取值范围总处于+1和-1之间，因此，|ρij|≤1。不同取值的相关系数代表不同的相关关系，分别为：

（1）若0＜ρij＜1，表示ri和rj正相关。

（2）若ρij=1，表示ri和rj完全正相关。

（3）若-1＜ρij＜0，表示ri和rj负相关。

（4）若ρij=-1，表示ri和rj完全负相关。

（5）若ρij=0，表示ri和rj完全独立，无任何关系（零相关）。

名师点拨

如上述（1）、（3）两种情况，通常情况下，两个证券收益率完全相关和零相关的情形都不会出现，其相关系数往往是区间（-1，1）中的某个值，这时我们称这两者不完全相关。

【例题】相关系数的取值范围是（）。

A.[-1，1]

B.（0，1]

C.（-1，0]

D.（-1，1）

【解析】本题考查相关系数的取值范围。相关系数ρij的取值范围总处于+1和-1之间，即ρij的取值范围是[-1，1]，本题选A。

【答案】A