大规模场景图像的情感语义分析若干关键技术研究
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.2 大数据处理面临的问题

虽然大数据时代的数据能为我们创造更多的价值,但因其具有与传统数据不同的特点,而在数据存储、数据分析、数据显示、数据安全与隐私、数据能耗等方面面临新的问题与挑战。

(1)数据存储。大数据不仅数据量大、结构形式多样,而且数据分散、标准不一、实时性强,因此,使用传统的技术进行数据的采集、整合变得非常困难,由此引发的数据存储也面临新的问题。大数据的存储方式既影响数据分析处理的效率,又影响数据存储的成本。研究高效率、低成本的大数据存储方式是目前有待解决的问题之一。

(2)数据分析。数据分析是大数据处理的核心,数据分析的效率直接影响大数据产生的价值。在数据分析方面目前也面临很多问题。一方面,海量的数据存在大量噪声,数据清洗预处理非常重要,但很多有用的信息混杂在海量的数据中,清洗粒度过细会导致有用的信息被过滤掉,清洗粒度过粗又达不到清洗的效果,因此需要在质与量之间做好权衡,这对计算机硬件和机器学习算法都是一个严峻的考验。另一方面,与传统的数据库管理系统相比,大数据分析在强调准确性的同时,更注重实时性,因为大数据蕴含的价值会随着时间的流逝而衰减,因此需要研究更有效、更实用的大数据分析和处理技术。

(3)数据显示。相对于数据分析,一般用户更注重数据的显示方式。传统的以文本为主输出结果的方式和在计算机终端上直接显示结果的方式适合于少量数据的处理,对于大数据的显示,人们在看到结果的同时,还希望显示输出大数据处理的中间结果,这就需要引入新的可视化处理技术,使得用户能够更好地理解显示的结果。

(4)数据安全与隐私。数据量的迅速增长引发了数据安全与隐私问题。社交网络的兴起让越来越多的数据以不同的形式存储于计算机中,数据产生的同时留下了人们生成数据的痕迹,如果将某个人在不同地点、不同时间的数据积累起来,这会引起潜在攻击者的注意,从而导致数据安全和个人隐私暴露问题。大数据时代数据的安全与隐私问题面临巨大的挑战。

(5)数据能耗。美国《纽约时报》和美国麦肯锡咨询公司的一项调查数据显示[94],脸书数据中心的年耗电量约60万瓦,谷歌数据中心的年耗电量达300万瓦左右,而这巨大的能耗中只有6%~12%是用来响应用户查询并进行计算的,大部分的能耗被用于确保服务器正常运转,以应对突发的网络流量高峰等情况。这些数据充分说明,在能源价格不断上涨、数据规模不断扩大的时代,大数据的能耗也是必须考虑并解决的问题之一。