1.1 数学基础
矩阵:矩阵是一个二维数组,其中的每一个元素由两个索引确定。可以用A表示矩阵。
矩阵的秩:设在矩阵A中有一个不等于0的r阶子式D,且所有r+1阶子式(如果存在的话)全等于0,那么,D称为矩阵A的最高阶非零子式,r称为矩阵A的秩,记作R(A)=r。
矩阵的乘法:设矩阵A为m×s阶矩阵,B为s×n阶矩阵,那么C=A×B是m×n阶矩阵,其中
两个相同维数的向量x和y的点积可看作矩阵乘积xTy。矩阵乘积C=A×B中cij的计算步骤可以看作A的第i行和B的第j列之间的点积。
单位矩阵和逆矩阵:任意向量和单位矩阵相乘,都不会改变。我们将保持n维向量不变的单位矩阵记作In。形式上,单位矩阵的结构是所有沿主对角线的元素都是1,其他位置的元素都是0。逆矩阵满足A-1A=I。
矩阵特征向量和特征值:矩阵A的特征向量是指与A相乘后相当于对该向量进行缩放的非零向量x:
Ax=λx
标量λ被称为这个特征向量对应的特征值。类似地,我们也可以定义左特征向量xTA=λxT,但是通常我们更关注右特征向量。
奇异值分解:除了前述由特征向量和特征值组成的特征分解外,奇异值分解(Singular Value Decomposition,SVD)也是使用较为广泛的矩阵分解方法。它是将矩阵分解为奇异向量和奇异值,通过奇异值分解可以得到与特征分解类似的信息。与特征分解不同的是,针对非方阵矩阵,奇异值分解也能进行,因此奇异值分解应用更加广泛。
奇异值分解将矩阵A分解为3个小矩阵的乘积:
A=UDVT
A为m×n阶矩阵,U为m×m阶矩阵,D为m×n阶矩阵,V为n×n阶矩阵。矩阵U和V为正交矩阵(如果AAT=E,则n阶实矩阵A称为正交矩阵),矩阵U的列向量称为左奇异向量,矩阵V的列向量称为右奇异向量。D为对角矩阵(主对角线之外的元素皆为0的矩阵,常写为diag),对角矩阵上的元素称为矩阵A的奇异值。
期望:对于离散型期望,假设;对于连续型期望,假设。期望代表概率加权下随机变量的平均值。平均值的计算为,如求1~10个数字的均值,计算过程为。期望除了表示均值外,还可表示随机变量的概率。
例如掷骰子,骰子有6个面,分别是(1,2,3,4,5,6),如果掷10000次骰子,假设骰子被掷到某个面的概率是均匀的,那么按照上面的计算方法投掷10000次后的均值约为3.5。如果所掷骰子的概率不服从均匀分布,均值计算同上面期望的计算。
方差: 。
标准差: 。
协方差:Cov(X,Y)=E(XY)-E(X)E(Y)。协方差是两个随机变量具有相同方向变化趋势的度量。若Cov(X,Y)>0,它们的变化趋势相同;若Cov(X,Y)<0,它们的变化趋势相反;若Cov(X,Y)=0,X与Y不相关。
概率分布:描述一个或多个随机变量在每一个状态的概率。下面介绍几种机器学习中常用的分布。
正态分布:随机变量X服从均值为μ、方差为σ2的分布,则称为正态分布,又叫作高斯分布,记为
其中,μ和σ2分别为x的均值(期望)和方差。
伯努利分布:对于一个值可能为0或1的随机变量X,其值为1的概率记为P(X=1)=p,那么伯努利分布为
显然,E(X)=p且Var(X)=p(1-p)。
二项分布:假设一个可重复实验只有A或者两种结果发生,如果实验重复n次,出现k次A结果的概率为:
拉普拉斯分布: ,其中μ是位置参数,b是尺度参数。E(X)=µ且Var(X)=2b2。