1.4 数据挖掘的应用领域
数据挖掘研究作为一个新兴的领域具有广泛的应用前景,有许多问题值得深入研究。数据挖掘的研究可简单地分为两个方面:理论研究和应用研究。理论研究主要是将数据挖掘相关内容的计算机快速算法以及算法理论支撑体系;应用研究主要是将数据挖掘现有的理论和算法在实际领域加以应用。数据挖掘技术与各个行业的有机结合体现了其蓬勃的生命力,且这种趋势正在以前所未有的速度继续向前发展。下面是数据挖掘技术的一些具体应用领域。
1.4.1 金融领域
数据挖掘技术已广泛应用于银行和金融市场。数据挖掘在金融领域的一种典型的应用情况是贷款偿还预测和客户信用政策分析。贷款偿付预测和客户信用政策分析对银行业务是相当重要的。有许多因素会对贷款偿还效能和客户信用等级计算产生不同程度的影响。数据挖掘的方法,如特征选择和属性相关性计算,有助于识别重要因素,剔除非相关因素。数据挖掘技术可以用来发现数据库中对象演变特征或对象变化趋势。这些信息对于决策或规划是有用的。银行数据的挖掘有助于根据顾客的流量安排银行出纳员。可以挖掘股票交易数据,发现可能帮助客户制定投资策略的趋势。数据挖掘给企业带来的潜在的投资回报几乎是无止境的。当然,数据挖掘中得到的模型必须要在现实生活中进行验证。
数据挖掘技术在美国银行金融领域应用广泛。金融事务需要搜集和处理大量数据,对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。商业银行业务的利润和风险是共存的。为了保证最大的利润和最小的风险,必须对账户进行科学的分析和归类,并进行信用评估。
Mellon银行使用Intelligent Agent数据挖掘软件提高销售和定价金融产品的精确度,如家庭普通贷款。零售信贷客户主要有两类,一类很少使用信贷限额(低循环者),另一类能够保持较高的未清余额(高循环者)。每一类都代表着销售的挑战。低循环者代表支出注销费用的危险性较低,但会带来极少的净收入或负收入,因为他们的服务费用几乎与高循环者的相同。银行常常为他们提供项目,鼓励他们更多地使用信贷限额或找到交叉销售高利润产品的机会。高循环者由高和中等危险元件构成。
高危险分段具有支付注销费用的潜力。对于中等危险分段,销售项目的重点是留住可获利的客户并争取能带来相同利润的新客户。但根据新观点,用户的行为会随时间而变化。分析客户整个生命周期的费用和收入就可以看出谁是最具创利潜能的。
Mellon 银行认为“根据市场的某一部分进行定制”能够发现最终用户并将市场定位于这些用户。但是,要这么做就必须了解关于最终用户特点的信息。数据挖掘工具为Mellon银行提供了获取此类信息的途径。Mellon银行销售部在先期数据挖掘项目上使用Intelligence Agent寻找信息,主要目的是确定现有Mellon用户购买特定附加产品:家庭普通信贷限额的倾向,利用该工具可生成用于检测的模型。据银行官员称:Intelligence Agent可帮助用户增强其商业智能,如交往、分类或回归分析,依赖这些能力,可对那些有较高倾向购买银行产品、服务产品和服务的客户进行有目的的推销。该官员认为,该软件可反馈用于分析和决策的高质量信息,然后将信息输入产品的算法。Intelligence Agent还有可定制能力。当然,在金融系统中,通过对一些原始交易数据的分析处理还可以防止洗钱等意外行为的发生。
1.4.2 数据挖掘在营销中的应用
数据库营销(Database Marketing)是数据挖掘目前最成功商业应用,作为一种结合了信息技术和营销理论的新型营销方式,通过搜集消费者和同类企业等的大量信息,并利用OLAP(On-Line Analytical Processing)和数据挖掘等分析技术对其进行分析处理,据此确定相应的营销策略和特定的目标顾客群。
数据挖掘在营销中的主要应用有:关联分析即市场篮子分析,用于了解顾客的购买习惯和偏好,有助于决定市场商品的摆放和产品的捆绑销售策略;序列模式与市场篮子分析相似,不过是用某时间点发现的产品购买或其他行为模式来预测将来购买产品或服务类别的概率;聚类用于市场细分,将顾客按其行为或特征模式的相似性划分为若干细分市场,以采取有针对性的营销策略;分类用于预测哪些人会对邮寄广告和产品目录、赠券等促销手段有反应,还可用于顾客定级、破产预测等。
目前国外许多大型零售企业和金融保险行业都已建立了营销数据库,并利用数据挖掘技术发现对某种产品感兴趣的顾客,帮助制定认识和保留最佳顾客的计划,增进与顾客的关系,识别并跟踪有发展前景的市场,根据顾客反馈确定产品开发计划,提高销售人员调配的效用,这些都为企业带来了独特的竞争优势,图1.3是数据挖掘系统在营销中的应用示意图。
如美国Firstar银行使用Marksman数据挖掘工具,根据客户的消费模式来预测应在什么时候向哪些客户提供哪些产品;美国运通公司(AmericanExpress)有一个用于记录信用卡业务的数据库,通过对这些数据进行挖掘,制定了“关联结算(Relationship Billing)优惠”的促销策略,即如果一位顾客在一个商店用运通卡购买一套时装,那么在同一个商店再买一双鞋,就可以得到比较大的折扣,既增加了商店的销售量,也可以增加运通卡在该商店的使用率。
美国的读者文摘(Reader' s Digest)出版公司运行着一个积累了40年的业务数据库,其中容纳有遍布全球的一亿多个订户的资料,并保证数据不断得到实时的更新,基于对客户资料数据库进行数据挖掘的优势,使读者文摘出版公司能够从通俗杂志扩展到专业杂志、书刊和声像制品的出版和发行业务,极大地扩展了自己的业务范围。
图1.3 数据挖掘在营销中的应用流程
1.4.3 电子政务领域
电子政务,源于“电子政府”。据研究表明,大约80%以上的重要信息资源掌握在政府手中,政府部门虽然不比企业拥有大量的销售、客户和供应商信息,但其在政务方面的信息却也是庞大无比的。因此,对多年来积累下来的业务数据进行有效整理,也是一项相当繁重、杂乱的工作。于是,运用数据挖掘技术的“电子政府”应运而生。
电子政务数据挖掘是把数据挖掘及时折射到政府部门,使政府部门的内部信息与外部信息进行有效的整合,以便政府部门可以更好、更有效地将信息发布给最希望得到它们的公众,从而使政府部门更好地服务于公众。另外,由于政府各部门自动化的实现、产生了大量的数据,对这些数据进行收集和分析,可以获得影响政府部门工作的关键因素,从而为政府部门决策提供依据,帮助政府部门提高政府信息化水平,促进整个社会的信息化。
目前,世界各国都已积极运用数据挖掘技术,大力发展电子政府,美英等发达国家始终走在世界前列。2001年止,英国便有60%以上的政府机构将互联网服务网站开通或投入建设;日本也于2001年正式启动“电子政府工程”,并从2005年开始,将政府各部门主要业务通过互联网办理,全面进入电子化阶段;最值一提的是新加坡,她从1981年便开始积极发展电子政府,目前已成为电子政府最为发达的国家之一。在新加坡的政府网站中,存在一个名为“电子公民中心”的虚拟社区。通过这个虚拟的电子社区,人们足不出户便可以顺利查询退休金、申请奖学金、为新车上户、填写专利申请表等,大大提高了政府和公民的办事效率。1999年1月22日,中国电信联合国家经贸委信息中心等 48 家部委(办、局)信息主管部门共同倡议“政府上网工程”,各级地方政府部门、企事业单位都积极支持和广泛响应。网上实际运用初见成效,如中国银行的网上支付、政府网络会议等,都是电子政务运用数据挖掘技术的标志。
1.4.4 电信领域
数据挖掘技术在电信CRM系统中起着核心作用。目前,电信运营公司大都建立了电信业务计算机综合管理系统。通过电信网络综合管理系统以及面向客户的业务处理和业务查询系统,系统可以方便地获得大量的客户数据,再通过建立电信CRM系统就可以把所有与客户有关的数据进行整合成面向主题的数据仓库。然后,应用数据挖掘工具对这些数据进行挖掘以获得经营管理决策中所需要的信息和模式。这些信息和模式可以为企业的经营决策提供有力的决策依据。
目前,数据挖掘技术在电信CRM系统中的应用有以下几个方面。
(1)客户获得
对电信运营公司来说,企业的增长需要不断地获得新的客户。新的客户包括以前没有听说过企业的人、以前不需要服务的人和竞争对手的客户。数据挖掘能够辨别潜在的客户群,并提高市场活动的响应率。
(2)交叉销售(Cross_selling)
在目前竞争激烈的电信市场中,企业和客户之间的关系是经常变动的,一旦成为企业的客户,企业就要尽力保持这种客户关系。客户关系的最佳境界体现在 3 个方面:最长时间地保持这种关系,最多次数地和客户交易,保证每次交易的利润最大化。因此,企业需对已有的客户进行交叉销售。交叉销售是指企业向原有客户销售新的产品或服务的过程。交叉销售是建立在双赢的基础之上的,客户因得到更多更好符合其需求的服务而获益,企业也因销售增长而获益。在企业所掌握的客户信息,尤其是以前购买行为的信息中,可能正包含着这个客户决定下一次购买行为的关键因素。数据挖掘可以帮助企业寻找影响客户购买行为的因素。
(3)客户保持
电信市场竞争越来越激烈,使企业获得新客户的成本正不断地上升,因此保持原有客户就显得越来越重要。客户分为3类:第1类是无价值的客户,第2类是不会轻易走掉的有价值的客户,第3类是为不断地寻找更优惠的价格和更好的服务的有价值的客户。传统的市场活动是针对前两类客户的,而现代客户关系管理者认为,特别需要用市场手段来维护的客户是第 3 类客户,这样做会降低企业运营成本。数据挖掘可以发现易流失的客户,企业就可以针对客户的需求,采取相应措施。
(4)一对一营销
CRM 系统可以把大量的客户分成不同的类,在每个类里的客户拥有相似的属性,而不同类里的客户属性也不同。企业可以做到给不同类客户提供完全不同的服务来提高客户的满意度。细致而切实可行的客户分类对企业的经营策略有很大益处。数据挖掘可以帮助企业针对不同类别的客户,提供个性化的服务。
电信企业的业务活动主要有以下几个方面:创造新业务并取得相关的许可证,网络规划、建设与维护,市场营销,用户注册与放号、计费,用户服务。在这些业务活动中产生了大量的数据并形成了各自的事务型数据库,如用户信息数据库、呼叫数据库、账单数据库等。从这些数据中获取有用的知识并用于相关的业务活动中,是电信企业在竞争中取得优势的重要手段。一种典型的应用是:分析不同用户对电信服务的使用模式以针对不同类型的用户采取不同的营销策略。例如,加拿大BC省电话公司要求加拿大Simon Fraser大学KDD研究组根据其拥有的十多年的客户数据,总结、分析并提出新的电话收费和管理办法,制定既有利于公司又有利于客户的优惠政策。
1.4.5 工业生产领域
工业生产领域是数据挖掘应用最有潜力的应用领域之一。在生产工业领域,大部分工厂都积累了大量的实际生产数据,这些数据大多以数据库、数据文件、生产记录等形式存在,它们蕴涵了与生产设备、生产过程相关的许多规律性知识和生产决策、操作人员的操作决策和控制经验。由于缺乏必要的数据分析和处理工具,这些数据中的大部分闲置。数据挖掘在该领域的应用将使这些数据发挥出极为可观的作用。工业过程优化是应用工业生产数据挖掘的一个重要目标,实现这一目标主要有两类方法:(1)建立过程输入输出模型,以此模型为指导寻求最优的操作和控制条件;(2)构造数据样本后,根据某种评估分类方法选出优选样本,根据优选样本的分布确定可探最优区,确定优化方向。
而在工业生产方面,随着计算机技术、网络技术的发展,生产和检测的自动化无形中给企业积累了大量的数据,这些数据和由此产生的信息是企业的巨大财富。如何从这些数据中提取出对企业工序质量控制有用的信息,就显得越来越重要。数据挖掘技术因其强大的分析处理能力而被公认为是信息利用的最佳解决方案,已成为现代企业决策支持系统建立的重要技术手段。国内外已开发并投入应用的系统,如CASSIONPEE系统、ISPA系统等,为我们积累了丰富的经验。随着数据挖掘技术的不断发展和完善,将数据挖掘技术应用于工序质量控制将会得到长足的发展。
1.4.6 生物与医学
人类基因组计划的启动和实施使得核酸、蛋白质数据迅速增长,如何从海量数据中获取有效信息成为生物信息学迫切要解决的问题。数据挖掘与生物信息学有很好的结合点,在生物信息学领域的应用潜力日益受到人们的重视。例如,人类的基因大约有100 000个,一个基因通常由成百个核苷酸按照一定的次序组织而成,如果没有处理大规模数据的数据分析工具,要研究清楚基因序列是很难的。对人类来说,随时会有新的致病基因出现,2003年的SARS病毒就是一种新的病毒。只有研究清楚其基因序列,才能制造出抵抗这种病毒的药物。
数据挖掘在生物信息学中已经被广泛应用,而网络数据挖掘技术在生物信息学中的应用则方兴未艾。网络数据挖掘与生物信息学中传统的数据挖掘相比,有许多不同之处。生物信息学中的数据挖掘主要是利用统计学的方法对生物序列进行分析,试图找出某种规律;而网络数据挖掘更多的是利用网络技术(CGI,Socket等)、网页源代码(HTML 语言等)和一些语言语义学的知识(主要用在网络电子文献挖掘中)对远程数据库进行查询,然后对返回的结果进行分析、提炼、挖掘,再返回给用户结果。经过网络数据挖掘处理过的结果比用户从网上查询得到的结果更精练,更符合用户查询的要求。
网络数据挖掘在生物信息学中兴起的一个主要原因是当前万维网上涌现出大量的生物学数据库,这些数据库中包含了大量的生物学信息,其中既有试验获得的数据,也有计算预测的数据,这些数据可以用数据挖掘的方法加以利用。这些数据库的数目、数据都保持着快速增长的势头。据最新报道,目前正在运行的具有一定规模的生物学数据库已经超过 350 个。这些数据库之间有一定的关联,可以NCBI(美国国立生物技术信息中心网站)为中心,组成一个拓扑网络;同时,随着生物学,特别是分子生物学的快速发展,这些库中的信息也在不断更新,有的数据库更新周期非常短,可以达到每周更新一次或更短。这样就可以运用网络数据挖掘技术,直接通过万维网对远程数据库进行数据挖掘,获取最新的数据。