上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
4.1.5 分类特征的编码
分类特征的编码有几种方法,不同的选择会影响权重的解释。
线性回归模型的标准是虚拟编码(Dummy Coding),这在大多数情况下已经足够。使用不同的编码归根结底就是从具有分类特征的单个列中创建不同的设计矩阵。本节介绍了两种不同的编码,但还有更多。使用的示例有六个实例和三个类别的分类特征。对于前两个实例,特征值为类别A;对于实例3 和4,特征值为类别B;对于后两个实例,特征值为类别C。
1.虚拟编码
在虚拟编码中,每个类别的权重是相应类别和参照类别之间预测的估计差异。线性模型的截距是当所有其他特征保持不变时参照类别的平均值。设计矩阵的第一列是截距,它始终是1;第二列表示实例是否在B 类中;第三列表示实例是否在C 类中。A 类不需要列,因为此时只要知道一个实例既不属于B 类也不属于C 类就足够了。
虚拟编码的特征矩阵如下。
2.效应编码
在效应编码(Effect Coding)中,每个类别的权重是从相应类别到总体均值的预测估计差异。第一列用于估计截距,与截距相关联的权重β0 表示总体均值。第二列的权重β1 表示总体均值与B 类之间的差异,B 类的总体效应为β0+β1。同样地,可以得到C 类的解释。对于参照类别A,-(β1 +β2) 表示和总体均值的差异,则β0-(β1+β2) 表示该类别的总体效应。
特征矩阵如下。