1.5 基于数据的推理在现代业务中至关重要
包括人工智能在内的高级分析,可以为使用归纳和演绎技术进行推理提供基础。能够将用户互动解释为一系列信号,可以使系统实时提供适合用户上下文的内容。
为了最大限度地提高内容的效用,数据应该具有适宜的质量水平、适当的结构化或标记,并且酌情与来自不同系统和进程的信息相关联。确定用户上下文也是一项分析任务,这涉及系统试图理解用户与用户的特定工作任务之间的关系。
对于基于工业的业务应用程序,用户可能需要发现完成液压系统维护所需的零部件和工具。通过使用自适应模式识别软件来帮助挖掘有关液压系统及其维修的参考手册,系统可以得到一个必要工具和相关零部件的清单。对液压维修的高级分析搜索可以显示动态生成的、基于产品关系的并与任何相关公司产品相关的内容。
获取内容和理解上下文并不是随意或随机的。从各种前端、中端和后端系统跨企业或生态系统调整和协调数据需要进行规划,信息架构便是这些规划的结果之一。
计算机处理能力的提高以及组织扩展其环境的意愿极大地促进了像人工智能这样被视为必不可少和可行的能力。利用经过提高的马力(例如更快的计算机芯片)的能力,使得自动驾驶汽车在技术上可行,即使需要大量的实时数据。语音识别已经变得可靠,并且能够区分说话者,所有这些都无须进行大量的依赖说话者的训练会话。
毫无疑问,人工智能是一个复杂的主题。但是,与人工智能相关的许多复杂性可以对用户隐藏。虽然人工智能本身并不是魔法,但是如果保留并掌握了诸如数据质量和数据治理之类的传统信息技术活动,则人工智能将从中受益。实际上,无论数据是结构化、半结构化或是非结构化的,干净、组织良好和受管理的数据都是能够使用数据输入机器学习算法的基本必要条件。
在许多情况下,人工智能系统需要处理或分析的数据集的结构,要比金融或交易系统中的经过组织的数据类型少得多。幸运的是,学习算法可用于从模糊查询中提取信息,并寻求理解非结构化数据输入。
学习和推理是相辅相成的,学习技术的数量可能变得相当庞大。以下是使用机器学习和数据科学时可以利用的学习技术的清单:
·主动学习
·演绎推理
·集成学习
·归纳学习
·多示例学习
·多任务学习
·在线学习
·强化学习
·自监督学习
·半监督学习
·监督学习
·转导
·迁移学习
·无监督学习
某些学习类型比其他学习类型更复杂。例如,监督学习由许多不同类型的算法组成,而迁移学习可以用来加快解决其他问题的速度。数据科学的所有模型学习都需要你的信息架构能够满足训练模型的需求。此外,信息架构必须为你提供一种通过一系列假设进行推理的手段,以确定适当的模型或集成,独立使用或注入应用程序之中。
模型通常按照监督(被动学习)和无监督(主动学习)的方式进行划分。随着包含诸如半监督学习、自监督学习和多示例学习模型之类的混合学习技术的引入,这种划分可能变得不那么清晰。除了监督学习和非监督学习之外,强化学习模型还代表了你可以探索的第三种主要学习方法。
之所以被称为监督学习算法,是因为该算法通过基于输入的训练数据和训练数据集包含的预期目标输出进行的预测来学习。监督机器学习模型的例子包括决策树和向量机。
监督学习中使用分类和回归这两种特定技术。
·分类用于预测根据属性值计算的类别标签。
·回归用于预测数字标签,并且模型被训练来预测新观测值的标签。
无监督学习模型对输入数据进行操作,而无须任何指定的输出或目标变量。因此,无监督学习不会使用老师来帮助纠正模型。无监督学习经常遇到的两个问题包括聚类和密度估计。聚类尝试在数据中查找群组,密度估计有助于汇总数据的分布。
K均值是一种聚类算法,其中数据与基于均值的集群相关联。核密度估计(kernel density estimation)是一种密度估计算法,它使用小群组紧密相关的数据来估计分布。
在《人工智能:一种现代的方法(第3版)》(Artificial Intelligence:A Modern Approach,3rd edition,培生教育印度,2015年)一书中,Stuart Russell和Peter Norvig描述了一个无监督模型在没有任何明确反馈情况下使用输入来学习模式的能力。
最常见的无监督学习任务是聚类:检测可能有用的输入示例集群。例如,在没有老师示范的情况下,出租车司机可能会逐渐形成“交通通畅日”和“交通堵塞日”的概念。
强化学习使用反馈作为决定下一步要做什么的辅助手段。在出租车行程的例子中,在乘车结束时是否与车费一起收取小费反映了交通状况的好坏。
模型学习的主要统计推理技术是归纳学习、演绎推理和转导。归纳学习是一种常见的机器学习模型,它使用证据来帮助确定结果。演绎推理自顶向下进行推理,并要求在确定结论之前满足每一个前提。相比之下,归纳法是一种自底向上的推理方式,它使用数据作为结果的证据。转导是用来指代在一个域中给出具体示例的情况下对具体示例进行预测。
其他学习技术包括多任务学习、主动学习、在线学习、迁移学习和集成学习。多任务学习旨在“利用多个相关任务中包含的有用信息来帮助提高所有任务的泛化性能”(arxiv.org/pdf/1707.08114.pdf)。通过主动学习,学习过程旨在“通过自动确定注释者应该标注哪些实例来尽可能快而有效地训练算法,从而简化数据收集过程”。“当数据可能随着时间的推移快速变化时,在线学习会很有帮助。即使变化是渐进的,它对于包含大量不断增长的数据的应用程序,也很有用”(《人工智能:一种现代的方法(第3版)》,培生教育印度,2015年)。
学习
机器学习的应用非常广泛。应用的多样性证明了为什么这么多不同的学习模式是必要的:
·广告服务
·商业分析
·呼叫中心
·计算机视觉
·同伴关系
·散文创作
·网络安全
·电子商务
·教育
·金融:算法交易
·金融:资产配置
·急救人员救援行动
·欺诈识别
·法律
·家政服务
·老年护理
·生产制造
·数学定理
·医学/手术
·军事
·音乐合成
·国家安全
·自然语言理解
·个性化
·治安维护
·政治
·推荐引擎
·机器人技术:消费者
·机器人技术:工业
·机器人技术:军事
·机器人技术:航空
·路径规划
·科学发现
·搜索
·智能家居
·语音识别
·翻译
·无人驾驶设备(无人机、汽车、救护车、火车、轮船、潜艇、飞机等)
·虚拟助手
一个模型的学习效果可以遵循以下5点评价量规进行评估:
·非凡的好:不可能做得更好。
·惊人的好:结果比任何人都能实现的要好。
·超常的好:结果比大多数人所能达到的要好。
·标准水平:结果与大多数人可实现的水平相当。
·较差水平:结果低于大多数人能达到的水平。