4.1 水文统计参数的基本概念
水文现象是一种自然现象,它具有必然性的一面,也具有偶然性的一面。
必然现象是指事物在发展、变化中必然会出现的现象。例如,流域上的降水或融雪必然沿着流域的不同路径,流入河流、湖泊或海洋,形成径流。这是一种必然的结果。
偶然现象是指事物在发展、变化中可能出现也可能不出现的现象。如上所述,降水必然形成径流,但是,河流上任一断面的流量每年每月都不相同,属于偶然现象,或称随机现象。统计学的任务就是要从偶然现象中揭露事物的规律。这种规律需要从大量的随机现象中统计出来,称为统计规律。
数学中研究随机现象统计规律的学科称为概率论,而由随机现象的一部分试验资料去研究总体现象的数字特征和规律的学科称为数理统计学。概率论与数理统计学是密切相连的,数理统计学必须以概率论为基础,概率论往往把由数理统计所揭露的事实提高到理论认识。
水文统计的任务就是研究和分析水文随机现象的统计变化特性,并以此为基础对水文现象未来可能的长期变化做出在概率意义下的定量预估,以满足工程规划、设计、施工以及运营期间的需要。
4.1.1 随机变量
随机试验的结果可以是一个数量,也有些虽然不是数量,但可以用数量来表示。这样的量随着试验的重复可以取得不同的数值,而且带有随机性,我们称这样的变量为随机变量。简言之,随机变量是在随机试验中测量到的数量。水文现象中的随机变量一般是指某种水文特征值,如某水文站的年径流、洪峰流量等。
4.1.2 随机变量的统计参数
从统计数学的观点来看,随机变量的概率分布曲线或分布函数较完整地描述了随机现象,然而在许多实际问题中,随机变量的分布函数不易确定,或有时不一定都需要用完整的形式来说明随机变量,而只要知道个别代表性的数值,能说明随机变量的主要特征就够了。例如,某地的年降水量是一个随机变量,各年的降水量不同,具有一定的概率分布曲线,若要了解该地年降水量的概括情况,就可以用多年平均年降水量这个数量指标来反映。这种能说明随机变量的统计规律的某些数字特征,称为随机变量的统计参数。
水文现象的统计参数反映其基本的统计规律,能概括水文现象的基本特性和分布特点,也是频率曲线估计的基础。
统计参数有总体统计参数与样本统计参数之分。所谓总体是某随机变量所有取值的全体。样本则是从总体中任意抽取的一个部分,样本中所包括的项数则称为样本容量。水文现象的总体通常是无限的,它是指自古、迄今以至未来长远岁月所有的水文系列。显然,水文随机变量的总体是不知道的,只能靠有限的样本观测资料去估计总体的统计参数或总体的分布规律。也就是说,由样本统计参数来估计总体统计参数。水文计算中常用的样本统计参数如下。
1.均值
设某水文变量的观测系列(样本)为x1,x2,…,xn,则其均值:
均值表示系列的平均情况,可以说明这一系列总水平的高低。例如,甲河多年平均流量=2460m3/s,乙河多年平均流量=20.1m3/s,说明甲河的水资源比乙河丰富。均值不但是频率曲线方程中的一个重要参数,而且是水文现象的一个重要特征值。
式 (4.1)两边同除以,则得
式中:为模比参数,常用Ki表示。
由此可得
式(4.2)说明,当我们把变量X的系列用其相对值即用模比系数K的系列表示时,则其均值等于1,这是水文统计中的一个重要特征。
2.均方差
从以上分析可知,均值能反映系列中各变量的平均情况,但不能反映系列中各变量值集中或离散的程度。例如,有两个系列:
第一系列49,50,51;
第二系列1,50,99。
这两个系列的均值相同,都等于50,但其离散程度很不相同。
研究离散程度是以均值为中心来考查的。因此,离散特征参数可用相对于分布中心的离差来计算。设以平均数代表分布中心,随机变量与分布中心的离差为,因为随机变量的取值有些是大于x的,有些是小于x的,故离差有正有负,其平均值为零。为了使离差的正值和负值不致相互抵消,一般取的平均值的开方作为离散程度的计量标准,并称为均方差,也称标准差,即
均方差取正号,它的单位与x相同。不难看出,如果各变量取值xi距离较远,则σ大,即此变量分布较分散,如果xi离较近,则σ小,变量分布比较集中。
按式(4.3)计算出上述两个系列的均方差为:σ1=0.82,σ2=40.0显然,第一系列的离散程度小,第二系列的离散程度大。
3.变差系数
均方差虽然能说明系列的离散程度,但对均值不相同的两个系列,用均方差来比较其离散程度就不合适了。例如,有两个系列:
第一系列:5,10,15,=10;
第二系列:995,1000,1005=1000。
按式(4.3)计算它们的均方差σ都等于4.08,说明这两系列的绝对离散程度是相同的,但因其均值一个是10,另一个是1000,它们对均值的相对离散程度就很不相同了。可以看出,第一系列中的最大值和最小值与均值之差都是5,这相当于均值的5/10=1/2;而在第二系列中,最大值和最小值与均值之差虽然也都是5,但只相当于均值的5/1000=1/200,在近似计算中,这种差距甚至可以忽略不计。
为了克服以均方差衡量系列离散程度的这种缺点,数理统计中用均方差与均值之比作为衡量系列相对离差程度的一个参数,称为变差系数(Cv),又称离差系数或离势系数。变差系数为一无因次的数,用小数表示,其计算式为
从式(4.4)可以看出,变差系数Cv可以理解为变量X换算成模比系数K以后的均方差。
在上述两系列中,第一系列的,第二系列的,这就说明第一系列的变化程度远比第二系列为大。
对水文现象来说,Cv的大小反映了河川径流在多年中的变化情况。例如,由于南方降水量比北方降水量充沛,丰水年和枯水年的年径流量变化相对较小,所以南方河流的Cv比北方河流一般要小。同理,大流域年径流的Cv比小流域年径流的Cv小。
4.偏态系数
变差系数只能反映系列的离散程度,它不能反映系列在均值两边的对称程度。在水文统计中,主要采用偏态系数Cs作为衡量系列不对称(偏态)程度的参数,其计算式为
式 (4.5)右边分子、分母同除以,得
偏态系数也为一无因次数,当系列对于对称时,Cs=0,此时随机变量大于均值与小于均值的出现机会相等.亦即均值所对应的频率为50%。当系列对不对称时,Cs≠0,其中,若正离差的立方占优势时,Cs>0,称为正偏;若负离差的立方占优势时,Cs<0。称为负偏。正偏情况下,随机变量大于均值比小于均值出现的机会小,亦即均值所对应的频率小于50%,负偏情况下则刚好相反。
例如,有一个系列:300,200,185,165,150,其均值x=200,均方差σ=52.8,按式(4.6)计算得Cs=1.59>0,属正偏情况。从该系列可以看出,大于均值的只有1项,小于均值的则有3项,但Cs却大于0,这是因为大于均值的项数虽少,其值却比均值大得多,离差的三次方就更大;而小于均值的各项离差的绝对值都比较小,三次方所起的作用不大。
有关上述概念从总体分布的密度曲线来看会更加清楚。如图4.1所示,曲线下的面积以均值x为界,Cs=0,左边等于右边;Cs>0,左边大于右边;Cs<0,左边则小于右边。
5.矩
矩在力学中广泛地用来描述质量的分布(静力矩、惯性矩),而在统计学中常用矩来描述随机变量的分布特征。以上所述参数,有些可以用矩来表示。矩可分为原点矩和中心矩两种。
图4.1 Cs对密度曲线的影响
(1)原点矩。随机变量X对原点离差的r次幂的数学期望E(Xr),称为随机变量X的r阶原点矩,以符号mr表示,即
对离散型随机变量,r阶原点矩为
对连续型随机变量,r阶原点矩为
当r=0时,m0=E(X0)==1,即零阶原点矩就是随机变量所有可能取值的概率之和,其值等于1。
当r=1时,m1=E(X1),即一阶原点矩就是数学期望,也就是算术平均数。
(2)中心矩。随机变量x对分布中心E(X) 离差的r次幂的数学期望E{[X-E(X)]r},称为X的r阶中心矩,以符号μr表示,即
对离散型随机变量,r阶中心矩为
对连续型随机变量,r阶中心矩为
显然,零阶中心矩为1,一阶中心矩为0,即
当r=2时,由式(4.3)可知,随机变量X的二阶中心矩就是标准差的平方(称为方差),即
当r=3时,μ3=E{[X-E(X)]3}。由式(4.6)可知,Cs=μ3/σ3。
综上所述,均值、离势系数和偏态系数都可用各种矩表示。矩的概念及其计算在工程水文计算中经常遇到。