新一代信息技术基础
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2.8 大数据应用案例剖析

1.2.8.1 基于大数据的精准营销

大数据技术应用之前,企业营销多依靠传统数据进行市场营销分析,例如客户关系管理系统中的客户信息、广告评估信息、展览等线下活动的效果数据。数据的来源仅限于消费者某一方面的有限信息,不能提供充分的线索或提示。互联网带来了新类型的数据,例如网站访问数据、地理位置数据、邮件数据、社交媒体数据等。

大数据时代的企业营销可以借助大数据技术将新类型的数据与传统数据进行整合,从而更全面地了解消费者的状况、需求与偏好,对客户群体进行细分,然后对每个细分群体采取符合具体其需求的定制营销,也就是所谓的“精准营销”。

1.精准营销概述

精准营销是指企业通过定量和定性相结合的方法,对目标市场的不同消费者进行细致分析,并根据其消费心理和行为特征,采用具有针对性的现代技术、方法和营销策略,从而实现对目标市场不同消费者群体强有效性、高投资回报的营销沟通。

精准营销最大的优点在于“精准”,即在市场细分的基础上,对不同消费者进行细致分析,确定目标对象。精准营销的主要特点有以下4点。

(1)精准的客户定位是营销策略的基础。

(2)精准营销能提供高效、高回报的个性化沟通。过去营销活动面对的是大众,目标不够明确,沟通效果不明显。精准营销是在确定目标对象后,划分客户生命周期的各个阶段,抓住消费者的心理,进行细致、有效的沟通。

(3)精准营销为客户提供增值服务,为客户细致分析,量身定制,降低了用户挑选商品的盲目性,节约了客户的时间成本和精力,同时满足客户的个性化需求。

(4)信息技术可帮助企业实现精准营销,大数据技术的应用,意味着人们可以利用数字映射出现实世界的个性特征。

精准营销运用先进的互联网技术与大数据技术等手段,使企业和客户能够进行长期个性化的沟通,从而让企业和客户达成共识,帮助企业建立稳定忠实的客户群。通过可量化的市场定位技术,精准营销打破了传统营销只能对市场进行模糊定性的局限,使企业营销达到了可调控和可度量的要求。此外,精准营销改变了传统广告形式的成本构成。

2.大数据精准营销过程

传统的营销理念是根据客户的基本属性,如客户的性别、年龄、职业和收入等来判断客户的购买力和产品需求,然后再进行市场细分,并制定相应的产品营销策略,这是一种“静态营销方式”。

大数据不仅记录了人们的行为轨迹,还记录了人们的偏好与生活习惯,能够精准预测客户的需求,从而实现以客户生命周期为基准的精准营销,这是一个动态的营销过程。

(1)客户信息收集与处理

客户数据收集与处理是一个数据准备的过程,是数据分析和挖掘的基础,是做好精准营销的关键和基础。精准营销所需要的信息内容主要包括描述信息、行为信息和关联信息等3大类。

① 描述信息是客户的基本属性信息,如年龄、性别、职业、收入、居住地址和联系方式等基本信息。

② 行为信息是客户的购买行为相关的数据,通常包括客户购买产品或服务的类型、消费记录、购买数量、购买频次、成交时间、付款方式、退货行为、客户与客服的联络记录,以及客户的消费偏好等。

③ 关联信息是客户行为的内在心理因素,常用的关联信息包括满意度和忠诚度、对产品与服务的偏好或态度、流失倾向及与企业之间的联络倾向等。

(2)客户细分与市场定位

如果企业要对不同客户群体进行高效管理和差异化营销,就需要对客户群进行细分。在实际操作中,传统的市场细分变量,如人口因素、地理因素、心理因素、收入因素等由于只能提供较为模糊的客户轮廓画像,难以为精准营销的决策提供可靠的数据依据。

大数据时代,利用大数据技术能在收集的海量非结构化信息中快速筛选出对公司有价值的信息,对客户行为模式与客户价值进行准确判断与分析,使我们有可能深入了解“每一个人”,而不只是通过模糊的“目标人群”来进行客户洞察并以此为依据提供营销策略。

大数据可以帮助企业在众多用户中筛选出重点客户,它利用某种规则关联,确定企业的目标客户,从而帮助企业将其有限的资源投入到对重点客户的服务中,以较小的投入获取较大的收益。

(3)辅助营销决策与营销战略设计

在基于现有数据得到不同客户群特征后,市场人员需要结合企业战略、企业能力、市场环境等因素,在不同的客户群体中寻找可能的商业机会,为每个客户群定制出个性化的营销战略。每个营销战略都有特定的目标,如获取相似的客户、交叉销售或关联销售,还可以采取合理措施预防客户流失等。

(4)精准的营销服务

动态的数据追踪可以改善客户体验。企业可以追踪了解客户使用产品的情况,做出适时的提醒。例如,食品是否快到保质期;汽车使用磨损情况,是否需要保养维护等。

数据的流动可以使产品“活”起来,企业可以随时根据客户反馈数据做出方案,精准预测客户的需求,提高客户服务质量。针对潜在的客户或消费者,企业可以通过各种现代化网络传播工具直接与消费者进行一对一的沟通,也可以通过社媒将相关信息发送给消费者,并追踪消费者的反应。

(5)营销方案设计

在大数据时代,一个好的营销方案可以聚焦到某个目标客户群,甚至精准地根据每一位消费者不同的兴趣与偏好为他们提供专属的市场营销组合方案,包括针对性的产品组合方案、产品价格方案、渠道设计方案、一对一的沟通促销方案等。

(6)营销结果反馈

在大数据时代,营销活动结束后,可以对营销活动执行过程中收集到的各种数据进行综合分析,从海量数据中挖掘出最有效的企业市场绩效度量,并与企业传统的市场绩效度量方法展开比较,以确立基于新型数据的度量的优越性和价值,从而对营销活动的执行、渠道、产品和广告的有效性进行评估,为下一阶段的营销活动打下良好的基础。

3.大数据精准营销方式

在大数据的背景下,有许多精准营销的实例。例如,百度等公司掌握了大量的搜索引擎用户的数据资源,这些用户的前后行为将能够被精准地关联起来。

(1)实时竞价(RTB)

简单地说,RT B智能投放系统的操作过程就是当用户发出浏览网页请求时,该请求信息会在数据库中进行比对,系统通过推测来访者的身份和偏好,将信息发送到后方需求平台,然后再根据广告商(预先提供的广告付费方案)竞价高低情况,出价最高的企业可以把自己的广告瞬间投放到用户的页面上。

RTB运用Cookie技术记录用户的网络浏览痕迹和IP地址,并运用大数据技术对海量数据进行甄别分析,得出用户的需求信息,向用户展现相应的推广内容。这种智能投放系统能精准确定目标客户,显著提高广告接受率,具有巨大的商业价值和广阔的应用前景。

关于客户个人信息、客户Cookie和客户机器ID及IP地址等信息的获取、跟踪、保存及商用,例如提供给第三方或用于商业广告投放等做法,在国际上一直存有争议,并有相关法律进行限制。例如欧盟GDPR(《通用数据保护条例》)和美国CCPA(《加州消费者隐私保护法案》)都对此有严格的界定和限制,对此需要特别留意。——本书编辑注。

(2)交叉销售

“啤酒与尿布”捆绑销售案例是数据挖掘的经典案例。海量数据中含有大量的信息,通过对数据的有效分析,企业可以发现客户的其他需求,为客户制定套餐服务,还可以通过互补型产品的促销,为客户提供更多更好的服务,如银行和保险公司的业务合作,通信运营商的手机“话费和流量包月套餐”等。

(3)点告

“点告”就是以“点而告知”取代“广而告知”,改变传统的片面追求广告覆盖面的思路,转向专注于广告受众人群细分以及受众效果。具体来讲,当用户注册为点告网的用户时,如果填写自己的职业和爱好等资料,点告网就可以根据用户信息进行数据挖掘分析,然后将相应的问答题目推荐给用户,继而根据用户的答题情况对用户进行自动分组,进一步精确地区分目标用户。“点告”以其精准性、趣味性、参与性及深入性,可以潜移默化地影响目标受众,达到企业广告宣传的目的。

(4)窄告

“窄告”是针对广告而言的,是一种把商品信息有针对性地投放给企业希望的特定人的宣传形式。广告是“广而告之”,窄告是“专而告之”。窄告基于精准营销理念,在投放窄告时,采用语义分析技术将广告主的关键词及网文进行匹配,从而有针对性地将窄告投放到相关文章周围的联盟网站的宣传位上。窄告能够精确区分目标区域,锁定目标客户所在地,最后成功地定位目标受众。

(5)定向广告推送

社交网络广告商可以对互联网和移动应用中大量的社交媒体个人页面进行搜索,实时查找提到的品牌厂商的信息,并对用户所发布的文字、图片等信息进行判断,帮助广告商投放针对性广告,使得投放的广告更加符合消费者的实际需要,因而更加准确有效。

1.2.8.2 基于大数据的个性化推荐系统

随着互联网的发展和大数据时代的到来,人们逐渐从信息匮乏的时代走入了“信息过载”的时代。为了让用户从海量信息中高效地获取自己所需的信息,推荐系统应运而生。

推荐系统的主要任务就是将用户与信息之间建立联系。它一方面帮助用户发现对自己有价值的信息,另一方面让信息能够展现在对它感兴趣的用户面前,从而实现信息消费者和信息生产者的双赢。基于大数据的推荐系统通过分析用户的历史记录了解用户的偏好,从而主动为用户推荐其感兴趣的信息,满足用户的个性化推荐需求。

1.推荐系统概述

推荐系统是自动联系用户和信息的一种工具,它通过研究用户的兴趣爱好,来进行个性化推荐。以Google和百度为代表的搜索引擎可以让用户通过输入关键词精确找到自己需要的相关信息。但是,搜索引擎需要用户提供能够准确描述自己的需求的关键词,否则搜索引擎就无能为力了。

与搜索引擎不同的是,推荐系统不需要用户提供明确的需求,而是通过分析用户的历史行为来对用户的兴趣进行建模,从而主动给用户推荐可满足他们兴趣和需求的信息。每个用户所得到的推荐信息都是与自己的行为特征和兴趣有关的,而不是笼统的大众化信息。图 1.2.13 展示了推荐引擎的工作原理,它接收的输入是需要的数据源,一般情况下,推荐引擎所需要的数据源包括以下几点:

● 要物品信息(或内容的元数据),如关键字、基因描述等。

● 已有的用户信息,如性别、年龄等。

● 用户对物品(或者信息)的偏好,根据应用本身的不同,可能包括用户对物品的评分、查看、购买等行为的记录情况。

图1.2.13 推荐引擎的工作原理

用户的偏好信息可以分为显式用户反馈和隐式用户反馈两大类。

(1)显式用户反馈是用户在网站上自然浏览或者用户(显式地)提供的反馈信息,如用户对物品的评分或评论等。

(2)隐式用户反馈是用户在使用网站时产生的数据,隐式地反映了用户对物品的偏好,如用户购买了某物品,用户多次查看了某类物品等信息。

显式用户反馈能准确地反映用户对物品的真实偏好,但需要用户付出额外的劳动;而用户的行为、习惯或做法,通过一些分析和处理,也能分析出用户的偏好,只是数据不是很精确,有些行为的分析存在较大的“噪声”。但只要选择正确的行为特征,隐式用户反馈也能得到很好的效果。例如,在电子商务的网站上,网上商品浏览其实就是一个能很好体现出用户偏好的隐式用户反馈。

根据不同的推荐机制或推荐算法,推荐引擎可能用到数据源中的不同部分,然后根据这些数据,分析出一定的规则或者直接根据用户对其他物品的偏好进行预测和推理。这样,推荐引擎就可以在用户进入的时候给他推荐他可能感兴趣的物品。

2.推荐机制

大部分推荐引擎的工作原理是基于物品或者用户的相似集进行推荐,所以可以对推荐机制进行以下分类:

● 基于人口统计学的推荐:根据系统用户的基本信息发现用户之间的相关程度。

● 基于内容的推荐:根据推荐物品或内容的元数据,发现物品或者内容的相关性。

● 基于协同过滤的推荐:根据用户对物品或者信息的偏好,发现物品或者内容本身的相关性,或者是发现用户之间的相关性。

(1)基于人口统计学的推荐

基于人口统计学的推荐机制可根据用户的基本信息发现用户的相关程度,然后将相似用户喜爱的物品推荐给当前用户,图1.2.14描述了这种推荐机制的工作原理。

从图中可以很清楚地看出,首先,系统对每个用户都有一个用户基本信息的模型,其中包括用户的年龄、性别等;然后,系统会根据用户的基本信息计算用户的相似度,可以看到用户A的基本信息和用户C一样,所以系统会认为用户A和用户C是“相似用户”,在推荐引擎中,可以称他们是“邻居”;最后,基于“邻居”用户群的喜好推荐给当前用户一些物品,图1.2.14所示为将用户A喜欢的物品A推荐给用户C。

基于人口统计学的推荐机制的主要优势是,对于新用户来讲没有“冷启动”的问题(缺少更多的用户信息又需要启动用户服务所产生的问题),这是因为该机制不使用当前用户对物品的偏好历史数据。该机制的另一个优势是它是领域独立的,不依赖于物品本身的数据,所以可以在不同的物品领域都得到使用。

图1.2.14 基于人口统计学的推荐机制的工作原理

基于人口统计学的推荐机制的主要问题是,基于用户的基本信息对用户进行分类的方法过于粗糙,尤其是对品味要求较高的领域,如图书、电影和音乐等领域,难以得到很好的推荐效果。另外,该机制可能涉及一些与需要查找的信息本身无关却比较敏感的信息,如用户的年龄等,这些信息涉及了用户的隐私。

(2)基于内容的推荐

基于内容的推荐是在推荐引擎出现之初应用最为广泛的推荐机制,它的核心思想是,根据推荐物品或内容的元数据,发现物品或内容的相关性,然后基于用户以往的偏好记录,推荐给用户相似的物品。图1.2.15描述了基于内容推荐的基本原理。

图1.2.15中给出了基于内容推荐的一个典型的例子,即电影推荐系统。首先,需要对电影的元数据进行建模,这里只简单地描述了电影的类型。然后,通过电影的元数据发现电影间的相似度,由于电影A和电影C的类型都是“爱情、浪漫”,所以它们会被认为是相似的电影。最后,实现推荐,由于用户A喜欢看电影A,那么系统就可以给他推荐类似的电影C。

图1.2.15 基于内容推荐机制的工作原理

基于内容的推荐机制的好处在于,它能基于用户的偏好建模,能提供更加精确的推荐。但它也存在以下几个问题:

● 需要对物品进行分析和建模,推荐的质量依赖于物品模型的完整性和全面程度。

● 物品相似度的分析仅仅依赖于物品本身的特征,而没有考虑人对物品的态度。

● 因为是基于用户以往的历史做出推荐,所以对于新用户有“冷启动”的问题。

虽然基于内容的推荐机制有很多不足和问题,但它还是成功地应用在一些电影、音乐、图书的社交站点。有些站点还请专业的人员对物品进行基因编码,例如,在潘多拉网站的推荐引擎中,每首歌有超过 100 个元数据特征,包括歌曲的风格、年份、演唱者等。

(3)基于协同过滤的推荐

随着移动互联网的发展,网站更加提倡用户参与和用户贡献,因此基于“协同过滤”的推荐机制应运而生。协同过滤的原理就是,根据用户对物品或者信息的偏好,发现物品之间或者内容之间的相关性,或者发现用户之间的相关性,然后再基于这些相关性进行推荐。

基于协同过滤的推荐可以分为3个子类:基于用户的协同过滤推荐、基于项目的协同过滤推荐和基于模型的协同过滤推荐。

① 基于用户的协同过滤推荐

基于用户的协同过滤推荐的基本原理是,根据所有用户对物品或者信息的偏好,发现与当前用户口味和偏好相似的“邻居”用户群。一般的应用是采用计算“k-邻居”的算法,然后基于这k个邻居的历史偏好信息,为当前用户进行推荐的。图1.2.16 演示了基于用户的协同过滤推荐机制的工作原理。

如图1.2.16所示,假设用户A喜欢物品A和物品C,用户B喜欢物品B,用户C喜欢物品A、物品 C和物品D。从这些用户的历史喜好信息中可以发现,用户A和用户C的偏好是比较类似的,同时用户C还喜欢物品D,那么系统可以推断用户A很可能也喜欢物品D,因此可以将物品D推荐给用户A。

图1.2.16 基于用户的协同过滤推荐机制的基本原理

基于用户的协同过滤推荐机制和基于人口统计学的推荐机制都是比较用户的相似度,把相似的用户视为“邻居”并基于“邻居”用户群进行推荐的。它们的不同之处在于,如何计算用户的相似度。基于人口统计学的机制只考虑用户本身的最基本特征,而基于用户的协同过滤机制是在用户的历史偏好的数据基础上计算用户的相似度,它的基本假设是,喜欢类似物品的用户可能有相同或者相似的偏好。

② 基于项目的协同过滤推荐

基于项目的协同过滤推荐的基本原理是,使用所有用户对物品或者信息的偏好,发现物品和物品之间的相似度,然后根据用户的历史偏好信息,将类似的物品推荐给用户,图1.2.17描述了它的基本原理。

图1.2.17 基于项目的协同过滤推荐机制的基本原理

假设用户A喜欢物品A和物品C,用户B喜欢物品A、物品B和物品C,用户C喜欢物品A。从这些用户的历史喜好可以分析出物品A和物品C是比较类似的,因为喜欢物品A的人都喜欢物品C。基于这个数据可以推断用户C很有可能也会喜欢物品C,所以系统会将物品C推荐给用户C。

基于项目的协同过滤推荐和基于内容的协同过滤推荐其实都是基于物品相似度的预测推荐,只是相似度计算的方法不一样,前者是从用户历史的偏好进行推断的,而后者是基于物品本身的属性特征信息进行推断的。

③ 基于模型的协同过滤推荐

基于模型的协同过滤推荐就是指,基于样本的用户偏好信息,采用机器学习的方法训练一个推荐模型,然后根据实时的用户偏好的信息进行预测,从而计算推荐。

这种方法使用离线的历史数据进行模型训练和评估,需要耗费较长的时间,依赖于实际的数据集规模、机器学习算法计算复杂度较高。

基于协同过滤的推荐机制是目前应用最为广泛的推荐机制,它具有以下两个优点。

● 它不需要对物品或者用户进行严格的筛选和建模,而且不要求物品的描述是机器可理解的,所以这种方法也是“领域无关”的。

● 这种方法计算岀来的推荐是开放性的,可以共用他人的经验,能够很好地支持用户发现潜在的兴趣或偏好。

基于协同过滤的推荐机制也存在以下几个问题。

● 方法的核心是基于历史数据,所以对新物品和新用户都有“冷启动”的问题。

● 推荐的效果依赖于用户历史偏好数据的多少和准确性。

● 对于一些具有个性化偏好(或兴趣)的用户不能给予很好的推荐。

● 由于以历史数据为基础,抓取数据并完成用户偏好建模后,很难修改或者根据用户的使用情况进行更新,从而导致这种方法不够灵活。

(4)混合推荐机制

在现行的Web站点上的推荐往往不是只采用了某一种推荐机制和策略的,而是将多种方法混合在一起,从而达到更好的推荐效果。有以下几种比较流行的组合推荐机制的方法。

● 加权的混合:用线性公式将几种不同的推荐按照一定权重组合起来,具体权重的值需要在测试数据集上反复实验,从而达到最好的推荐效果。

● 切换的混合:对于不同的情况(如数据量、系统运行状况、用户和物品的数目等),选择最为合适的推荐机制计算推荐。

● 分区的混合:采用多种推荐机制,并将不同的推荐结果分不同的区域显示给用户。

● 分层的混合:采用多种推荐机制,并将一个推荐机制的结果作为另一个的输入,从而综合各种推荐机制的优点,得到更加准确的推荐。

3.推荐系统的应用

目前,在电子商务、社交网络、在线音乐和在线视频等各类网站和应用中,推荐系统都起着很重要的作用。下面将简要分析两个有代表性的推荐系统(Amazon 作为电子商务的代表,豆瓣作为社交网络的代表)。

(1)推荐在电子商务中的应用:Amazon

Amazon 作为推荐系统的成功先例,已经将推荐的思想渗透在其应用的各个角落。Amazon 推荐的核心是,通过数据挖掘算法将当前用户与其他用户的消费偏好做对比,来预测用户可能感兴趣的商品。Amazon采用的是“分区混合机制”,即将不同的推荐结果分不同的区显示给用户。图1.2.18展示了用户在Amazon上能得到的推荐页。

图1.2.18 Amazon推荐机制生成的推荐页

Amazon 利用了可以记录的用户在站点上的浏览和点击行为,并根据不同数据的特点对它们进行处理,从而分成不同区为用户推送推荐。

猜您喜欢:通常是根据用户的近期的历史购买或者查看记录给出的推荐商品。

热销商品:采用了基于内容的推荐机制,将一些热销的商品推荐给用户。

图1.2.19显示了用户在Amazon浏览物品的页面上能得到的推荐。

图1.2.19 Amazon推荐机制,在浏览物品时显示的推荐商品

当用户浏览物品时,Amazon 会根据当前浏览的物品和当前用户在站点上的行为,然后在不同区为用户推送推荐商品。

浏览此商品的顾客也同时浏览:这也是一个典型的基于模型的协同过滤推荐的应用,客户能更快更方便地找到自己感兴趣的物品。

购买此商品的顾客也同时购买:采用数据挖掘技术对用户的购买行为进行分析,找到经常被一起或同一个人购买的物品集,然后进行捆绑销售,这是一种典型的基于项目的协同过滤推荐机制。

(2)推荐在社交网站中的应用:豆瓣

豆瓣是国内做得比较成功的社交网站,它以图书、电影、音乐的讨论和评析及同城活动为社区话题中心,形成了一个多元化的基于内容的社交网络平台,下面来介绍豆瓣是如何进行推荐的。

在豆瓣“电影”频道中,当用户将一些看过的或是感兴趣的电影加入“看过”或“想看”列表之中时,可为它们做相应的评分,豆瓣的推荐引擎就已经“感知”了用户的一些偏好信息。基于这些信息,豆瓣将会给用户展示类似图1.2.20所示的电影推荐。

图1.2.20 豆瓣的推荐机制,基于用户偏好推荐电影

豆瓣的推荐是根据用户的收藏和评价自动计算出来的,对每位用户的推荐清单都是不同的,每天推荐的内容也会有变化。用户活跃度越高、收藏和评价越多,豆瓣给用户的推荐就会越准确、越丰富。

豆瓣是基于社会化的协同过滤的推荐,用户越多、用户行为越明确、用户的反馈信息越丰富,则推荐的效果越准确。相对于Amazon的用户行为模型,豆瓣“电影”的推荐模型更加简单,就是“看过”和“想看”,这也让他们的推荐更加专注于用户的品位,毕竟买东西和看电影的动机还是有很大不同的。

另外,豆瓣也有基于用户偏好的推荐,当用户查看一些电影的详细信息时,它会给用户推荐出“喜欢这个电影的人也喜欢的电影”,这是一个基于协同过滤的推荐的应用。

1.2.8.3 大数据预测

大数据预测是大数据最核心的应用之一,它将传统意义的预测拓展到“现测”。大数据预测的优势体现在,它把一个非常困难的预测问题,转化为一个相对简单的描述问题,而这是传统“小数据集”难以企及的。从预测的角度看,大数据预测所得出的结果不仅仅可以用来处理现实业务的简单决策,更大的价值在于帮助企业进行中远期的重大经营决策。

1.预测是大数据的核心价值

大数据的本质是分析和解决问题,大数据的核心价值就在于预测,而企业经营的重要出发点也是基于对市场的预测和判断。在谈论大数据应用时,最常见的应用案例便是“预测股市”“预测流感”“预测消费者行为”等。

大数据预测是基于数据和预测模型去预测未来某件事情的处理过程。让分析从“面向已经发生的过去”转向“面向即将发生的未来”是大数据与传统数据分析的最大不同。

大数据预测的逻辑基础是,每一种非常规的变化事前一定有征兆,每一件事情都有迹可循,如果找到了征兆与变化之间的规律,就可以进行预测。大数据预测无法确定某件事情必然会发生,它更多的是给出一个事件会发生的概率。

实验的不断重复、大数据的日渐积累让人类不断发现各种规律,从而能够预测未来。利用大数据预测可能的灾难,利用大数据分析癌症可能的引发原因并找出治疗方法,都是未来能够惠及人类的事业。

例如,大数据曾被洛杉矶警察局和加利福尼亚大学合作用于预测犯罪的发生;Google利用搜索关键词预测禽流感的分布状态;麻省理工学院利用手机定位数据和交通数据进行城市规划;气象局通过整理近期的气象情况和卫星云图,准确地判断未来的天气状况。

2.大数据预测的思维改变

在过去,人们的决策主要是依赖结构化数据,而大数据预测则可以利用结构化数据和更多的非结构化数据。大数据预测具有更多的数据维度、更快的数据频度和更广的数据宽度。与传统数据分析相比,大数据预测的思维具有3大改变:全样而非抽样、预测效率而非精确和相关关系而非因果关系。

(1)全样而非抽样

过去,由于缺乏获取全体样本的手段加之数据处理能力不足,人们发明了“随机抽样数据”的调查方法。理论上,抽样样本随机性越高,就越能代表整体样本。但问题是,获取一个随机样本的代价极高,而且很费时。人口调查就是一个典型例子,一个国家很难做到每年都完成一次人口调查,因为随机抽样实在是太耗时费力,然而云计算和大数据技术的出现,使得获取足够大的样本数据甚至全样本数据成为可能。

(2)效率而非精确

过去,基于抽样方法,在数据样本的具体运算上要求非常精确,否则就会“差之毫厘,失之千里”。例如,在一个总样本为1亿人的群体中随机抽取1000人进行人口调查,如果在1000人上的运算出现误差,那么放大到1亿人中时,偏差将会很大。但在全样本的情况下,偏差为实际值,不再会放大。

在大数据时代,快速获得总体状态和发展趋势,要比严格、精确的结果重要得多。有时候,当掌握了大量可信数据时,结果的精确性就不再那么重要了,因为我们仍然可以掌握事情的发展趋势。大数据基础上的简单算法比数据有限的复杂算法更有效。数据分析的目的并非仅限于分析结果,而是在于用结果去辅助决策,故而数据分析的时效性(效率)便显得更加重要了。

(3)相关性而非因果关系

大数据研究不同于传统的逻辑推理研究,它需要对数量巨大的数据做统计性的搜索、比较、聚类、分类等分析归纳,并关注数据的相关性(或关联性)。相关性是指两个或两个以上变量的取值之间存在某种规律性。相关性不是绝对的,只有可能的。但是,如果相关性强,则表明该相关性成功的概率是很高的。相关性可以帮助我们捕捉现在状况或预测未来。如果A和B经常一起发生,则我们只需要观测到B发生了,就可以预测“A也发生了”。

根据相关性,我们理解世界不再需要用“假设—推理—证明”逻辑线路。其中的假设是指,针对现象建立有关其产生机制和内在机理的假设,之后人类再用相关的理论和方法去推理、证明假设。现在,我们不再依赖这样的假设,即哪些检索词条可以表示流感在何时何地传播;这种状态下航空公司应该怎样给机票定价;沃尔玛的客户的烹饪喜好是什么……取而代之的是,我们可以对大数据进行相关性分析,从而知道哪些检索词条是最能显示流感的传播的,机票价格随时间或事件的变化规律,哪些食物是飓风期间待在家里的人最想吃的。

数据驱动的关于大数据的相关性分析法,取代了基于假想的易出错的传统方法。大数据的相关性分析法更准确、更快捷,而且不易受偏见的影响。建立在相关性分析法基础上的预测是大数据的核心。

相关性分析本身的意义重大,同时它也为研究因果关系奠定了基础。通过找出可能相关的事物,我们可以在此基础上进行深入的因果关系分析。如果存在因果关系,则再进一步找出原因。这种便捷的机制通过严格的实验降低了因果分析的成本。我们也可以从相互联系中找到一些重要的变量,这些变量可以用到验证因果关系的实验中去。

3.大数据预测的典型应用领域

互联网给大数据预测应用的普及带来了便利条件,结合国内外案例来看,以下11个领域是大数据预测最容易发挥所长的领域。

(1)天气预报

天气预报是典型的大数据预测应用领域。天气预报粒度已经从天缩短到小时,有严苛的时效要求。如果基于海量数据通过传统方式进行计算,则得出结论时时辰已过——预报变旧报——已无价值。而大数据技术的发展,使天气预报既有巨量的天气数据也有超强、超高速的计算能力,大大提高了天气预报的实效性和准确性。

(2)体育赛事预测

2014 年世界杯期间,Google、百度、微软和高盛等公司都推出了比赛结果竞猜平台。百度的预测结果最为亮眼,全程 64 场比赛的预测准确率为 67%,进入淘汰赛后准确率为94%。这意味着未来的体育赛事结果会被大数据预测所探知。Google世界杯比赛结果预测使用了英国体育数据提供商Opta Sports的海量赛事数据来构建其预测模型。百度则是通过搜索过去5年内全世界987支球队(包括国家队和俱乐部队)的3.7万场比赛数据,同时与中国彩票网站“乐彩网”“欧洲必发”指数数据供应商 SPdex 进行数据合作,导入博彩市场的预测数据,建立了一个囊括近20万名球员和1.12亿条数据的预测模型,并在此基础上进行计算并预测结果。

从互联网公司的成功经验来看,只要有足够多的体育赛事历史数据,并且与相关数据统计公司进行合作,便可以完成对于比赛结果的有效预测,如欧洲冠军杯、NBA(美国职业篮球联赛)等赛事。

(3)股票市场预测

英国华威商学院和美国波士顿大学物理系的研究发现,用户通过Google搜索的金融关键词或许可以预测金融市场的走向,相应的投资战略收益曾超过 300%。此前曾有专家尝试通过Twitter推文情绪来预测股市波动。

(4)市场物价预测

CPI(Consumer Price Index,消费者物价指数)是反映居民家庭购买的消费品和服务项目价格水平变动情况的宏观经济指标。但有时市场统计数据并不准确或实效性不强。大数据则可能帮助人们了解未来物价的走向,提前预测通货膨胀或经济危机。最典型的案例是,马云通过阿里B2B大数据提前预测了1997年“亚洲金融危机”的发生。

单个商品的价格预测更加容易,尤其是机票这样的标准化产品,“去哪儿网”提供的“机票日历”就是典型的价格预测,它能告知你几个月后机票的大概价位。

由于商品生产、渠道成本和总体毛利水平在充分竞争的市场中是相对稳定的,与价格相关的变量也是趋于稳定的,商品的供需关系在电子商务平台上可实时监控,因此价格可以得到较为准确的预测。基于预测结果可提供购买时间建议,或者指导商家进行动态价格调整和营销活动以实现利益最大化。

(5)用户行为预测

基于用户搜索行为、浏览行为、评论历史和个人资料等数据,企业可以洞察消费者的整体需求,进而有针对性地实施产品生产、改进和营销。《纸牌屋》选择演员和剧情,百度基于用户喜好进行精准广告营销,阿里巴巴根据天猫用户特征包下生产线定制产品,Amazon预测用户点击行为提前订货均是受益于互联网用户行为预测,如图1.2.21所示。

图1.2.21 依据用户行为分析,可以预测用户行为

受益于传感器技术和物联网的发展,线下的用户行为洞察正在酝酿。免费商用Wi-Fi,iBeacon 技术、摄像头监控网络、室内定位技术、NFC 传感器网络、排队叫号系统,可以探知用户线下的移动、停留、出行规律等数据,从而进行精准营销或者产品定制。

(6)人体健康预测

中医可以通过“望闻问切”的传统手段得知人体的健康情况和体内疾病,甚至可知晓一个人将来可能会出现什么疾病。人体的健康变化有着特定的规律,而慢性病发生前人体会有一些持续性异常。理论上来说,如果大数据掌握了这样的异常情况,便可以进行慢性病预测。

科学杂志《自然》报道过 Zeevi 等人的一项研究,即一个人的血糖浓度如何受特定的食物影响的复杂问题。该研究根据肠道中的微生物和其他方面的生理状况,提岀了一种可以提供个性化的饮食建议的预测模型,比目前的通行标准能更准确地预测血糖反应,如图1.2.22所示。

图1.2.22 血糖浓度预测模型

智能硬件和大数据使慢性病的预测变为可能。可穿戴设备和智能健康设备可帮助网络收集人体健康数据,如心率、体重、血脂、血糖、运动量、睡眠量等状况。如果这些数据比较准确、全面,并且可以进行建模和机器学习,从而预测慢性病,未来可穿戴设备协助用户身体对慢性病进行预测。

(7)疾病和疫情预测

疾病和疫情预测是指基于人们的搜索情况、购物行为预测流行性发生的可能性,最经典的“流感预测”便属于此类。如果来自某个区域的“流感”“板蓝根”搜索需求骤然增加,可以推测该处有流感传染状况发生。

百度已经推出了疾病预测产品,目前可以就流感、肝炎、肺结核、性病这四种疾病,对全国每一个省份以及大多数地级市和区县的活跃度、趋势图等情况,进行数据收集与监测。未来,百度疾病预测监控的疾病种类将扩展到几十种,覆盖更多的常见病和流行病。用户可以根据当地的预测结果进行针对性的预防。

(8)自然灾害预测

气象灾害预测是最典型的自然灾害预测。地震、洪涝、高温、暴雨这些自然灾害如果可以利用大数据的能力进行更加提前的预测和告知,会有助于减灾、防灾、救灾、赈灾。与过往不同的是,过去的数据收集方式存在着难实现、成本高等问题,而在物联网时代,人们可以借助传感器摄像头和无线通信网络,进行实时的数据监控收集,再利用大数据预测分析,做到更精准的自然灾害预测。

(9)环境变化预测

除了进行短时间局地天气预报、灾害预测之外,还可以进行更加长期和宏观的环境和生态变化趋势预测。森林和农田面积缩小、野生动物或植物濒危、海平面上升、温室效应等类问题是地球面临的“慢性恶化问题”。人类获取的地球生态数据及自然环境数据越多,就越容易对未来环境的变迁建模、计算和预测,进而阻止其变坏。大数据可帮助人类收集、储存和挖掘更多的地球环境数据,同时还提供了预测的工具。

(10)交通行为预测

交通行为预测是指基于交通参与者(人与车辆)的LBS(Location Based Services,基于位置的服务)定位数据,分析人与车辆出行的个体及群体特征,进行交通情况的预测。交通部门可通过预测不同时点、不同道路的车流量,来进行智能的车辆调度,或应用“潮汐车道”;用户则可以根据预测结果选择拥堵概率更低的道路。

百度基于地图应用的LBS预测涵盖范围更广,在“春运”期间,可预测人们的迁徙趋势来指导高铁列车线路和航线的设置;在节假日期间,可预测景点的游客流量,来指导游客合理地选择景区;平时,百度“热力图”可以显示城市商圈、餐饮区的人流情况,从而提供购物和餐饮方面的参考。

(11)能源消耗预测

利用能源大数据和客户端采集器(例如数字电表、燃气表、热力表),可以综合分析来自天气、能源供应系统、用户使用计量设备等各种数据源的海量数据,预测各地的能源需求和供给情况,进行智能化的能源调度,平衡全网络电力、燃气、热力等能源的供应和需求,并对潜在风险做出预测和事前响应。

除了上面列举的11个领域之外,大数据预测还可被应用在房地产预测、就业情况预测、高考分数线预测、电影节奖项预测、保险投保者风险评估、金融借贷者还款能力评估等领域,让人类具备可量化、有说服力、可验证的洞察未来的能力,大数据预测的魅力正在释放出来。

习题与思考

1.请简述大数据中数据处理的工作流程。

2.你知道的大数据应用案例有哪些(请从身边的生活中举例)?