2 平台设计
2.1 平台架构
(1)数据源来自图书馆业务自动化系统、一卡通业务自动化系统、电子资源应用、RFID系统、门禁系统及互联网和移动互联网系统(微博、微信),具有连接新数据源的功能和接口。
(2)数据采集主要是通过各种系统提供的标准接口和采集爬虫两种模式实施,以手机号、身份证号、读者号作为数据关键索引,对于实施信息采用及时的接口访问和采集爬虫,实时运行,获取数据变化;对于历史数据采用定时获取数据的方法。
(3)采用NoSQL的方式进行非结构化数据和半结构化数据的存储,符合大数据存储的要求。
(4)对于需要扩展性数据采用Hadoop的Hive实例获取方法高效率地在本地数据库和互联网数据中找到耦合性强的数据资源。
(5)数据分析采用MapReduce映射汇聚式架构实现数据汇总、分析,对数据展示提供服务。
(6)数据挖掘,一般没有对主题的预先设定,在现有数据上进行基于各种算法的计算,起到预测的效果,实现一些高级别数据分析的需求。
(7)数据展示为分析结果的应用包括知识整合、采购决策、参考分析三个子系统。
2.2 平台研究方法
2.2.1 建立图书馆数据委员会
由于现代网络环境下的公共图书馆服务和业务涉及面很广,其数据来源也涉及馆内外的多个部门或单位,这其中无论是数据的质量还是数据的标准规范都不是哪一个部门能够单独处理完成的,而且各种海量的数据在汇集之初,标准混乱,数据无序,这就要求在实施大数据分析试验系统之初,建立图书馆数据委员会,把控数据源头,在海量数据的采集、整合、分析、利用、决策过程中,综合且全方位地反映出图书馆各方面系统业务、服务等具体要求。委员会的成员应该包括各项底层业务数据负责人、图书馆各业务工作部门负责人、图书馆管理者以及相应的数据专家。数据委员应更多地以开协调会的形式,来指导、协调馆内外部门形成合力,以保障各项数据业务工作顺利开展。
2.2.2 系统数据采集和聚合
图书馆公共文化服务属性的存在,导致当前网络环境下图书馆涉及的数据来源途径多,包括网络传输、系统安全、服务器、数据库、应用系统、行为传感器等方面。
(1)数据收集平台框架定义。使用数据中间件技术,首先采用中间件结构的数据技术框架,可以很好地兼容和聚合图书馆现有各项系统业务的结构化和非结构化的数据,它可以独立于前端系统管理平台,便于科学地对数据进行收割、整合、标引、重构和存储等操作。以便最大化保证数据的全面性和完整性。
(2)数据收集、采集的方法,采用主动收割和被动获取两种方式。首先,使用主动收割,可以解决在系统安全业务、网络传输业务、行为传感器等方面的数据收集问题。在系统安全业务和网络传输业务层上的数据难以改造原有固化的硬件系统,使得在数据采集方面只能由大数据收集系统主动发出获取数据请求,即采取主动收割的数据采集方式。其次,针对图书馆现有的业务自动化系统、流通日志数据、图书馆WWW服务、数字资源管理系统平台、OPAC检索系统、电话自助服务平台、WIFI管理系统、RFID管理系统以及部署在馆内的各项门禁感应器等可采用被动获取的数据收集方式,这就需要依托并改造现有的以上各项系统业务,以主动传输各业务系统的数据到大数据中间件平台。
2.2.3 建立元数据体系,统一数据标准
经过收集和整理并进入到数据中间件的海量数据是没有统一标准和规范的,是具有差异化的元数据,需要对其进行动态清洗、归类、分析以统一数据标准。首先应该由数据委员会制定图书馆结构化和非结构化数据标准和规范,包括以读者信息、时间段、地理位置、业务范畴为核心的业务自动化系统数据,流通日志数据,WIFI管理系统、RFID管理系统等数据,涵盖图书馆业务的多个维度,如文献的借出、归还、续借等,无线网络的接入、认证、注销等动作,RFID标签的感应、读写等。也包括以使用行为、个人习惯、喜爱偏好等为主的数字资源系统平台数据,图书馆WWW服务访问数据,OPAC检索、查询日志数据,馆内门禁等感应器数据等,还涵盖多方面的系统维度,如WWW服务的时间峰值、地域信息等数据,OPAC系统检索的热门词汇、使用习惯收集等,馆内感应器提供的读者使用习惯、兴趣热点区域、设备设施的部署和安放等信息。
2.2.4 大数据框架结构
传统的关系型数据库是基于存储模式的,其所引发的数据存储和访问瓶颈也无法满足大数据状态下的大数据量存储和高并发访问需求,本项目采用分布式架构的Hadoop大数据集框架和数据处理工具、利用MapReduce模型构建海量数据存储和访问平台。
2.2.5 图书馆业务建设数学模型
通过各类知识服务和业务建设数学分析模型的建立,实现读者行为和价值分析,建立知识服务新型引擎,通过各种业务数学模型的智能分析和可视化数据模拟,帮助图书馆实现各种业务、资源的优化配置和重塑。主要包括几个方面。
(1)图书馆业务监测管理模型:利用数据模型的分析手段,可以反映图书馆日常业务工作的运行情况,如一定时间段和周期内的文献借阅和归还等流通量,一定时间段的读者到馆量,全市一卡通系统区域流通量运行、文献借阅区域排行分布曲线。
(2)图书馆业务洞察管理模型:本模型可使用统计分析、预测分析及数据挖掘手段,来实现有执行意义的业务检测,并将该检测应用到图书馆业务流程中。例如,在流通过程中,在时间段或一定周期内综合分析各个类别的文献流通量,可以为流通部门提供按照类别、热度的文献资源的优先排架、整理、剔旧的参考建议。文献采访部门可以依据文献流通类别、频率、热度等参数,动态调整相应类别、频率文献的采访量和复本数。例如,在图书馆扩展服务中,分析一段时间内读者或用户的事件关注度和敏感度,为服务部门提供举办讲座、展览等类型的建议。
(3)图书馆业务优化管理模型:利用此数据分析模型,图书馆可将分析计算结果等参数应用到日常的业务管理和运营中,通过大数据的分析助力公共文化服务的不断优化和提升。例如,根据图书文献流通统计分析模型,将分析结果应用到图书馆采访系统中,设置相应的图书分类采访权重,就可以针对当年或一段时间比较热门、畅销的图书优先采访和入库;根据流通统计分析模型分析读者地域信息数据,分析一定区域、一定时间内读者对图书馆活动和服务的热度值,将分析结果应用到图书馆对外服务活动中,可为对外服务部门在开展活动,增加社会影响力并提高的受众参与度;根据图书馆WIFI数据分析模型,可以分析出在一个周期或时间段内不同年龄段、不同文化层次的读者和用户比较关注哪一些网络应用,什么网络服务才使读者和用户更容易接受,根据这些信息可以为馆内WIFI网络调整相应的带宽到读者和用户经常访问的网络应用上去提供参考,也可以帮助图书馆的宣传活动部门指导和预测读者和受众喜欢图书馆开展什么样的活动、喜欢什么样的文化服务形式等。
2.2.6 开发实施大数据系统后台服务、展示平台、扩展应用系统。
(1)大数据系统后台服务,该服务是核心系统服务,通过该后台服务实现本系统所有源数据的定义、收集、聚合、存储、调用等功能,包括系统数据的日常管理和维护,系统内各业务数学分析模型的管理与维护,前端系统的数据提供和分发管理等功能,同时根据数据接口标准为第三方系统提供相应的数据和应用接口调用,为政府和相应的决策机构提供图书馆大数据统计和分析报告,为本市以后涉及公共文化方面的政府决策提供数据层面的参考和理论依据。
(2)大数据展示平台,该平台是图书馆为读者和用户共享和体验大数据所研发的一套基于触屏技术、体感技术的体验系统,读者和用户可以通过展示平台实时查看图书馆各项实时统计数据、历史统计分析报告、个人事务信息等,展示平台也可以通过读者的移动终端提供更具个性化的数据推送等服务,它是读者和图书馆实现数据共享和互通的手段。本系统主要创建以下三个数据场景平台
①图书馆决策应用,基于BS架构的平台软件,通过灵活的配置将图书馆单位时间内各种应用、管理数据以较高UE呈现出来,为领导和各部门工作决策做数据依据。
②用户互联网/移动互联网应用,利用分析数据将读者的借阅、参考、观展等信息以极好的交互推送到图书馆官网、APP和微信等个人空间。利用挖掘数据通过APP主动推送信息,例如,读者参观一件展品达到3分钟,更深入的相关信息会推送到APP、微信等应用客户端中。
③图书馆数据服务特色阅览室,在图书馆建设落地的数据体验中心,通过触控设备、移动设备使读者能够获取优秀交互的数据服务。
(3)扩展应用系统,该系统主要包括图书馆基于大数据知识整合系统、基于大数据采购决策系统、基于大数据参考咨询系统。
①图书馆大数据知识整合系统主要为通过对数字资源应用行为的分析,为馆员提供资源选择及资源元数据整合依据,分析、整合利用频率最高的资源元数据,生产高效率的“知识库”是本系统的重要功能。
②基于大数据采购决策系统与图书馆主要供书商的图书进销存系统完成数据对接,实现单位之间数据共享、数据互通,图书馆可通过书商的销售数据获取最新热门图书书目,书商也可以通过图书馆提供的数据服务获取读者最新的热门图书信息资源,单位数据互为补充实现良性循环,读者可借助本系统平台,实现在书商自助完成图书馆文献的采访、流通等业务工作。
③基于大数据参考咨询系统,收集来自各咨询入口(门户网站、公共微信、官方微博)的原始数据,通过智能化模型,包括离散数据模型、语义分析模型,自动反馈咨询答案,并通过数据分析获取图书馆阶段时期内公众关注点和问题点以提高自身的服务水平。
2.2.7 优化管理手段、创新服务模式
通过设计图书馆相关的各种业务数据模型,分析得到相应的数据参考和依据,从图书馆的管理层和业务层不断提升自身对各项业务开展和实施的把控和预测能力,使得图书馆在大数据和现代网络环境下不断适应和创新服务模式,更好地开展公共文化服务。
2.3 平台开发技术思路
引进国内外先进的计算机应用技术和大数据存储、计算理论,按照大数据分析系统构建的总体思路,利用面向对象的软件开发思想和开源软件体系架构,研制出一套基于云计算模式的图书馆大数据分析试验系统。具体包括:
(1)采用Unix/Linux操作系统作为运行环境;
(2)选用Oracle/Mysql作为底层数据库运行平台;
(3)采用JAVA作为程序设计的主要开发工具,利用J2EE作为系统的总体实现技术架构;
(4)批量数据处理系统采用Hadoop大数据批量处理架构,应用MapReduce模型构建海量数据平台;
(5)流式数据处理系统采用类STORM系统的分布式、可容错处理技术来构建流式数据处理系统;
(6)交互式数据处理系统采用基于内存计算的开源集群计算机系统Berkeley的Spark系统处理功能,实现数据的快速计算并实时返回查询分析结果;
(7)图数据处理系统中采用Trinity系统相关功能来构建分布式云存储上的计算平台,实现高度并行查询、事务处理和一致性控制等;
(8)系统严格遵照国际计算机应用软件设计规范和Dublin元数据描述标准以及数据格式进行设计;
(9)引进数据库中间件,使之能对接各类通用数据库,实现异构系统、多种格式资源在同一系统平台的管理下实施应用与服务;
(10)应用软件工程管理模式,能实现异构系统和分布式资源的整合和快速传递机制的综合管理系统;
(11)处理的数据内容包括图书馆业务数据如书目记录库、电子文献库、读者记录库;自动化系统运行所产生的各类静、动态数据;RFID系统运行的数据;馆内业务数据、网络上的随机数据等;
(12)处理的数据具有长期性、连贯性、动态性、实时性、交互性、可分析性、随机性等特点;
(13)数据处理技术包括元数据标引、数据清洗、数据聚类、数据分析、数据统计等;
(14)借助于新型的处理系统实现深度学习、知识计算、可视化处理等。