上QQ阅读APP看书,第一时间看更新
10.6.2 突起规则
突起规则表述如下:
1)如果数据具有类似上图第一象限的形态,则数据挖掘工程师尝试用向上幂阶梯法对X,Y变量进行重述。
2)如果数据具有类似上图第二象限的形态,则数据挖掘工程师尝试用向下幂阶梯法对X,Y变量进行重述。
3)如果数据具有类似上图第三象限的形态,则数据挖掘工程师尝试用向下幂阶梯法对X,Y变量进行重述。
4)如果数据具有类似上图第四象限的形态,则数据挖掘工程师尝试用向上幂阶梯法对X,Y变量进行重述。
重述是EDA的一项重要工作,但很容易出错。尽管通常可以将数据校直,但可能导致信息被扭曲。原因如下:重述(过度向下)会导致数据被挤压,以致数值变得无法辨认,造成信息损失。扩展(过度向上)可能会将数据过度分离,新的相距很远的值位于一个人工设定的区间,造成获得的信息失真。
所以,重述要求在直度和适当性之间折中。数据挖掘工程师总是会把幂阶梯法用到极致,尽最大可能校直数据,但是他们必须知道,这样做会带来信息损失。有时候可以发现这样做明显已经超过了必要限度:存在幂次p,超过它之后,要么数据关系无法获得明显改善,要么因为信息损失而导致在相反方向出现突起。我建议用离散做法避免过度校直及其造成的信息损失。而且,我注意到过度的重述有时候会得出原始变量极端值。所以应该经常检查原始变量的最大值和最小值,以确保这些极值在重述前是合理的。