1.4 EDA范式
EDA代表了建模流程的一种主要的范式变化。正像一句口头禅“让你的数据成为你的向导”说的那样,EDA提供了一个完全颠覆建模流程通用步骤的正统观念。EDA宣称模型必须顺应数据,而不是经典方法里的相反做法。
经典方法是根据一个输出变量Y构建和表述一个问题。这假定真正的模型解释了变量Y的所有已知变化。具体而言,预测变量Xi的构造决定了Y是已知的,而且呈现在这个模型中。例如,如果年龄会影响Y,而年龄的对数反映其与Y之间的真实联系,则这个对数就被纳入这个模型。一旦模型被确定下来,用这个模型分析数据,就可以得到与这个真实预测变量的系数估计值或结构相关的数字结果。所以,建模过程最终反映了对这个模型的解释。这个解释包括:说明Xi是一个重要的预测变量,如果Xi很重要,则评估Xi如何影响对Y的预测,然后根据预测重要性对Xi排序。
当然,数据分析师并不知道真正的模型是这样的。如果对相关问题比较熟悉,就可以设计出真正的替代模型,从而得出Y的准确预测值。正如鲍克斯所说:“所有模型都是错的,但是其中一些是有用的。”[11]在这种情况下,所选的模型提供了可用的Y的预测值。无论使用哪个模型,从我们了解Y变量这个假设出发,就会让统计逻辑导致在分析、获得结果和解释的过程中出现偏误。
对于EDA方法而言,唯一的要求是你之前接触过那个问题的内容。态度、灵活性和敏锐的洞察力是数据分析师的支柱,数据分析师分析问题,让数据来引导这个分析过程,然后得出这个模型的结构。如果模型通过了这个验证,则可以视为建模完成,得到结果和解释。如果验证失败,则数据分析师需要重新进行分析,直到得出一个合适且可行的模型,进而得出最终的结果和解释(见图1.1)。EDA范式不需要违反任何假设,它提供的探索性分析是无偏的,至少具备传统方法所具有的置信度。当然,所有分析都无法避免偏误,因为所有分析师都会在公式里带入他们的偏差。
图1.1 EDA范式