第四节 常用描述性统计概念
考情分析:本节主要介绍了集中常用的描述性统计变量,其中,考查的重点是平均值、中位数、分位数的概念、计算和应用,此外方差和标准差的概念、计算和应用以及相关系数的取值及其意义也是考查重点。在历次考试中,本节涉及的题目不多,一般不会超过2题。
学习建议:本节要求掌握的考点不多,但涉及的变量较多,各个统计变量的计算及所表达的意义容易混淆。因此,建议考生采用表格对比的方法,在比较中理解各个变量的应用和计算。
一、随机变量(★★★)
随机变量X是指一个能取得多个可能值的数值变量。它可以分为两种。
(1)离散型随机变量,是指一个随机变量X最多只能取可数的不同值。比如,X只能取0或1。
(2)连续型随机变量,是指随机变量X的取值无法一一列出,可以遍取某个区间的任意数值。比如,X可能是大于0的数。
(1)如果随机变量X是离散型的,且X最多可能取n个值,即X1,X2,……,Xn,则记Pi=P{X=Xi}是X取Xi的概率,所有概率的总和为:。
(2)如果随机变量X是一个连续型的,我们用概率密度函数来刻画X的分布性质。概率密度函数是用来衡量随机变量X取值在特定范围内的函数,其图像称为概率密度函数曲线。如图1-1所示,阴影部分面积表示变量X取值在(0.2,0.4]的概率P{0.2<X≤0.4}。
图1-1 概率密度函数曲线
研究随机变量分布特点的数值统称为数字特征,如均值、方差等。在现实世界中,由于随机变量通常是未知分布的,因而我们采取抽样的方法来估计它们。常用的随机变量的数字特征和它们的描述性统计量如表1-9所示。
表1-9 随机变量的数字特征与描述性统计量
名师点拨
二、正态分布(★)
当一个随机变量的取值受到大量不同因素作用的共同影响,并且单个因素的影响都微不足道的时候,这个随机变量就服从或近似服从正态分布。
知识拓展
如果连续型随机变量X的概率密度函数曲线如图1-2所示,则称X服从参数为(μ,σ2)的正态分布,记为X~N(μ,σ2),其中μ是X的期望,σ﹥0为X的标准差。其中,当μ=0,σ=1,即X~N(0,1)时,称X服从标准正态分布。
图1-2 正态分布概率密度函数曲线
如图1-2所示,正态分布密度函数的显著特点是中间高两边低,由中间(X=μ)向两边递减,并且分布左右对称,是一条光滑的“钟形曲线”。
正态分布距离均值越近的地方数值越集中,而在离均值较远的地方数值则很稀疏;这意味着正态分布出现极端值的概率很低,而出现均值附近的数值的概率非常大。同时图像越“瘦”,正态分布集中在均值附近的程度也越大。
另外,正态分布的分位数还可以用来评估投资或资产收益限度或者风险容忍度。
知识拓展
三、相关系数(★★)
随机变量的相关性常用相关系数来表示。在证券市场上,相关系数从资产回报相关性的角度分析两种不同证券表现的联动性,通常用ρij表示证券i和证券j的收益回报率之间的相关系数。
相关系数的绝对值大小体现两个证券收益率之间相关性的强弱。一般来说,绝对值越大,表示相关性越强。
相关系数ρij的取值范围总处于+1和-1之间,因此,|ρij|≤1。不同取值的相关系数代表不同的相关关系,分别为:
(1)若0<ρij<1,表示ri和rj正相关。
(2)若ρij=1,表示ri和rj完全正相关。
(3)若-1<ρij<0,表示ri和rj负相关。
(4)若ρij=-1,表示ri和rj完全负相关。
(5)若ρij=0,表示ri和rj完全独立,无任何关系(零相关)。
名师点拨