2.1 数据驱动决策制定_企业级数据与AI项目成功之道-QQ阅读男生都市网

上QQ阅读APP看书，第一时间看更新

2.1　数据驱动决策制定

最先进的算法也无法克服数据不足的问题。那些试图从人工智能中获益的组织，必须能够获得具有足够相关性的数据。但是，即使该组织拥有其所需要的数据，也不会自动成为数据驱动的组织。一个数据驱动的组织，必须对能够进入人工智能模型的数据予以信任，同时必须对来自人工智能模型的结论性数据予以信任。然后，组织需要根据这些数据采取行动，而不是根据直觉、以往经验或者长期业务策略采取行动。

从业者经常交流如下情绪：

组织并没有算法所需的历史数据，用以提取可靠预测的模式。例如，他们会让我们为其构建预测性维护解决方案，然后我们会发现极少甚至没有故障记录。即使没有可以学习的示例，他们也期望人工智能能够预测故障出现的时间。

摘自Sam Ransbotham、David Kiron、Philipp Gerbert和Martin Reeves于2017年9月6日发表的“用人工智能重塑商业：缩小雄心与行动之间的差距”（Reshaping Business with Artificial Intelligence:Closing the Gap Between Ambition and Action）一文。

即使组织存在一个可以通过机器学习或深度学习算法来解决的明确问题，在模型无法得到充分训练的情况下，数据的缺乏可能会导致负面影响。人工智能在不使用确定性规则的情况下，通过隐藏的神经层发挥作用。对于如何追踪决策制定过程需要予以特别关注，以便为组织和法律政策提供公平性和透明度。

这里出现了一个问题：如何知道何时适合进行数据驱动？对于许多组织而言，诸如记录系统之类的宽松术语是定性信号，表明数据应该可以安全使用。在无法将单个规则应用于数据分级的情况下，必须考虑其他方法。主要问题构成了一个合理的起点，有助于深入了解如何控制与数据驱动型组织相关的所有基于风险的决策。

2.1.1　通过询问来获得洞见

在Rudyard Kipling 1902年出版的《原来如此的故事》（Just So Stories）一书中，“The Elephant's Child”的故事里包含了一首诗：

我养了六名忠实的仆人（我所知道的都是他们教的）：

他们名叫何事、何地、何时、如何、为何与何人。

Kipling提出了英语的“六何法”。总体而言，何事、何地、何时、如何、为何与何人，这六个疑问词可以被视为对特定主体获得全面洞见的手段。这就是为什么Kipling告诉我们，“我所知道的都是他们教的”。

这些疑问成为John Zachman在1987年和1992年发表的开创性论文“信息系统结构框架”和“信息系统结构框架的扩展和定义”的基础。Zachman将疑问词与组织感兴趣的一系列基本概念相关联。尽管提出疑问词的实际顺序是无关紧要的，而且没有任何一个疑问词比其他任何一个重要或不重要，但Zachman通常使用如下顺序：何事、如何、何地、何人、何时、为何。

·何事：组织产生的数据或信息。

·如何：一个进程或函数。

·何地：一个位置或通信网络。

·何人：由人员或计算代理扮演的角色。

·何时：与触发的触发器或引发的信号可能相关的时间点。

·为何：揭示动机的目标或子目标。

通过使用Zachman六问的基本概念，组织可以开始理解或表达其对特定事物的了解程度，从而推断出一定程度的信任，并帮助促进数据驱动的进程。

如果个人或机器可以访问一条信息或一个来自人工智能模型的结果，那么这个人或机器就可以开始进行查询来确定信任。例如，如果给人或机器一个分数（代表“何事”），那么他们会问：“这些信息是‘如何’产生的？这些信息在‘哪里’产生？‘谁’产生了这些信息？这些信息是‘何时’产生的？这些信息是否能够满足我的要求（‘为何’）？”

2.1.2　信任矩阵

为了帮助直观地理解六问如何有助于提升信任并迈向数据驱动，我们可以将疑问词作为X轴映射到信任矩阵之中（如图2-1所示）。Y轴反映了时间维度：过去、现在和将来。

图2-1　信任矩阵

过去代表已经发生的事情。过去是历史，可以告诉我们发生了什么，构建了什么，购买了什么，以及以货币来衡量购买了多少，等等。现在是关于当下的，可以告诉我们正在发生或正在进行的事情。现在的问题包括正在发生的事情，正在构建什么，谁正在进行购买，等等。未来与即将发生的事情有关。我们可以通过计划或预测为未来做好准备。我们可以准备预算，可以进行预测。

揭示过去可以产生事后的领悟、现在的洞见和未来的远见。跨时间维度的频谱为已发生的、正在发生的以及未来可能/将要发生的事情提供观点。尽管划分很直观，但现在的概念实际上可以跨越过去和现在。考虑一下“今年”一词。今年是现在的一部分，但今年中已经过去的日子也是过去的一部分，即将到来的日子还是未来的一部分。通常，查询的上下文可以帮助消除任何不恰当的时间并发症。

组织可以合理地了解每一个X-Y轴的交叉点。如图2-2所示，已知具有广度和深度这两个维度。广度是范围的反映，是了解对于一个特定主题已知多少的一种手段。例如，某些组织可能具有保留政策，要求在给定年限（例如7年）后清除信息。在此示例中，组织可以访问的信息广度仅限于最近7年。

图2-2　广度和深度条

相反，深度是细节的反映。这里我们讨论民族志研究（Ethnography）的话题。例如，某人购买了某种产品，并且如果该产品是送给其他人的礼物，则该组织可能没有关于该产品的实际消费者的线索，这是缺乏深度的表现。

广度和深度可以用百分比表示，并映射到交叉点上。图2-2显示了一个示例，其中广度条显示大约为75%，深度条显示大约为25%。第三个框将广度条和深度条组合在一起。

在图2-3中，信息的质量根据广度和深度进行分级。菱形网格图案表示数据质量很差。斜条纹图案表示数据质量中等，这意味着在特定条件下，信息可能不可靠。而方格图案则用来表示信息质量高且可靠。

图2-3　分级

因此，即使广度和深度都不是100%，也可以根据现有信息对可用数据进行分级。

在整个信任矩阵中，如果可以根据每个时间维度内每个方向的广度和深度来对特定需求信息进行度量，然后对其进行分级，则个人或机器可以根据信息的使用来进行风险评估。组织能够准确量化已知范围和详细程度的风险，因此，组织可以根据数据价值而进行所有后续行动或决策，从而放心地追求数据驱动。

此外，一个以数据为驱动力的组织，使用其数据作为关键证据来帮助提供信息和影响战略，将需要一种权衡各种固有风险的手段。数据驱动的组织必须发展一种基于证据的文化，在这种文化中，可以根据建立信任的手段对数据进行评估。对数据执行的分析和人工智能被认为具有高度相关性且信息丰富，并且有助于确定后续工作步骤。

2.1.3　衡量标准和人类洞见的重要性

对于那些凭直觉做出决定并对采用数据驱动作为手段而感到不安的组织来说，度量能力至关重要。第1章中的目的-手段模型，如图1-4所示，显示了需要度量的内容、能够生成可度量的内容，与最终需要度量的内容保持一致性，以及在它们之间取得平衡的必要性。

人工智能的使用要求组织成为数据驱动的组织，尤其是当一个人处于决策循环中时。机器与机器之间的通信培养了机器独立采取行动以完成基于现有信息做出决策的能力。将一个人安排到通信流中可以扩大决策范围并充当“信息把关人”（Gatekeeper）的角色。

在20世纪60年代，所谓的“广告狂人”（Mad Men）据说是广告从业人员创造出来的委婉说法。在美国，广告业主要集中在纽约市的麦迪逊大道（Madison Avenue）周围。广告狂人为大众创造了信息。信息是否具有区域性，或者广告是否在每个单一个体的离散需求中产生了很好的共鸣，这些都不是核心问题。最终，广告狂人的直觉让位于媒体人以焦点群体为导向的观点。反过来，媒体人已经让位给数学人。数学人是数据科学领域的佼佼者，其专业领域是大数据、密集数据（Thick Data）、算法和机器学习，他们从数据中获得洞见。随着新领工人从使用基于模型的结果扩展到公司工作的各个方面，每个决策都将基于数据。新领工人是数据驱动的，他们的决策也是。

Zachman框架

何事、如何、何地、何人、何时、为何这六问，为探究提供了系统的调查手段。但是Zachman框架中疑问词的使用为框架提供了一个结构性策略。由于Zachman框架本质上是结构性的，而不是一种方法论，因此该框架实际上适用于描述企业的本体论。

Zachman框架不是一种方法论，因为该框架不是规范性的，也不是基于进程的。该框架关注于创建、操作或更改企业感兴趣的基本组件。这些组件可大可小，包括企业本身、企业中的部门、云、应用程序、容器、模式和人工智能模型。