图计算与推荐系统
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 数学基础

矩阵:矩阵是一个二维数组,其中的每一个元素由两个索引确定。可以用A表示矩阵。

矩阵的秩:设在矩阵A中有一个不等于0的r阶子式D,且所有r+1阶子式(如果存在的话)全等于0,那么,D称为矩阵A的最高阶非零子式,r称为矩阵A的秩,记作RA)=r

矩阵的乘法:设矩阵Am×s阶矩阵,Bs×n阶矩阵,那么C=A×Bm×n阶矩阵,其中

两个相同维数的向量xy的点积可看作矩阵乘积xTy。矩阵乘积C=A×Bcij的计算步骤可以看作A的第i行和B的第j列之间的点积。

单位矩阵和逆矩阵:任意向量和单位矩阵相乘,都不会改变。我们将保持n维向量不变的单位矩阵记作In。形式上,单位矩阵的结构是所有沿主对角线的元素都是1,其他位置的元素都是0。逆矩阵满足A-1A=I

矩阵特征向量和特征值:矩阵A的特征向量是指与A相乘后相当于对该向量进行缩放的非零向量x

Ax=λx

标量λ被称为这个特征向量对应的特征值。类似地,我们也可以定义左特征向量xTA=λxT,但是通常我们更关注右特征向量。

奇异值分解:除了前述由特征向量和特征值组成的特征分解外,奇异值分解(Singular Value Decomposition,SVD)也是使用较为广泛的矩阵分解方法。它是将矩阵分解为奇异向量和奇异值,通过奇异值分解可以得到与特征分解类似的信息。与特征分解不同的是,针对非方阵矩阵,奇异值分解也能进行,因此奇异值分解应用更加广泛。

奇异值分解将矩阵A分解为3个小矩阵的乘积:

A=UDVT

Am×n阶矩阵,Um×m阶矩阵,Dm×n阶矩阵,Vn×n阶矩阵。矩阵UV为正交矩阵(如果AAT=E,则n阶实矩阵A称为正交矩阵),矩阵U的列向量称为左奇异向量,矩阵V的列向量称为右奇异向量。D为对角矩阵(主对角线之外的元素皆为0的矩阵,常写为diag),对角矩阵上的元素称为矩阵A的奇异值。

期望:对于离散型期望,假设;对于连续型期望,假设。期望代表概率加权下随机变量的平均值。平均值的计算为,如求1~10个数字的均值,计算过程为。期望除了表示均值外,还可表示随机变量的概率。

例如掷骰子,骰子有6个面,分别是(1,2,3,4,5,6),如果掷10000次骰子,假设骰子被掷到某个面的概率是均匀的,那么按照上面的计算方法投掷10000次后的均值约为3.5。如果所掷骰子的概率不服从均匀分布,均值计算同上面期望的计算。

方差:

标准差:

协方差:Cov(X,Y)=EXY-EXEY)。协方差是两个随机变量具有相同方向变化趋势的度量。若Cov(X,Y)>0,它们的变化趋势相同;若Cov(X,Y)<0,它们的变化趋势相反;若Cov(X,Y)=0,XY不相关。

概率分布:描述一个或多个随机变量在每一个状态的概率。下面介绍几种机器学习中常用的分布。

正态分布:随机变量X服从均值为μ、方差为σ2的分布,则称为正态分布,又叫作高斯分布,记为

其中,μσ2分别为x的均值(期望)和方差。

伯努利分布:对于一个值可能为0或1的随机变量X,其值为1的概率记为PX=1)=p,那么伯努利分布为

显然,EX)=p且Var(X)=p(1-p)。

二项分布:假设一个可重复实验只有A或者两种结果发生,如果实验重复n次,出现k次A结果的概率为:

拉普拉斯分布: ,其中μ是位置参数,b是尺度参数。EX)=µ且Var(X)=2b2