大数据案例精析
上QQ阅读APP看书,第一时间看更新

4 数据的获取和专业化的处理

数据的获取和专业化的处理是大数据开发和利用的前提,科大讯飞经过多年的实践探索,逐步形成了行之有效的思路和方法。

4.1 数据的获取

从2010年左右,科大讯飞开始做语音云平台,提供面向最终用户的智能语音服务,从那时开始真正拥有了互联网上用户的大数据,并把用户数据的获取以及开发和利用作为重要的战略,不断地开辟来源渠道,巩固了数据来源基础。目前,科大讯飞数据的主要来源如下:

(1)通信运营商合作数据:中国移动作为企业的第一大股东,提供了全方位的通信业务数据。

(2)智能家居数据:通过企业提供的智能家居设备获取相关数据。

(3)智能汽车:通过企业提供的智能汽车终端获取相关数据。

(4)教育用户数据:由全国近万所使用人工智能产品学校的师生所提供的数据。

(5)政府和智慧城市数据:由企业的政府用户以及智慧城市相关项目所提供的数据等。

到2017年年底,科大讯飞拥有近10亿的用户(日交互次数超30亿次)。其中,讯飞输入法的用户达到3.6亿人,庞大的用户群体是科大讯飞最基本的数据来源。并且,这些数据通过生物识别的手段(如用户的声纹、人脸识别等)提供的数据,可以做到数据非常真实可靠,并确保其具有更高的应用价值。图3-4为科大讯飞的数据来源分布。

4.2 数据处理

科大讯飞作为智能语音服务的提供商,所获得的数据主要集中在语音数据,把语音数据转化成可处理的结构化的数据,真正挖掘这些数据的价值是重中之重。为此,科大讯飞开发了用于进行大数据分析和服务的平台,这个平台的内部名称叫“Odeon”,中文名称为“奏乐堂”,寓意是“希望大数据平台依托科大讯飞的独特语音资源,把数据当音符演奏出美妙的音乐乐章”。目前,这一平台日数据的增量基本在100TB以上,具备了大规模、高速度数据处理的能力。

000

图3-4 科大讯飞的数据来源分布

Odeon平台的主要特色包括以下三个方面:

(1)以数据为中心:实现用户间数据隔离和授权访问,以保障数据安全。

(2)整合人工智能能力:基于CPU+GPU的混合架构,整合了科大讯飞的人工智能技术。

(3)允许私有化部署:平台已形成了成熟产品,为企业的客户实现私有化部署。

Odeon平台的能力输出与核心价值如图3-5所示。

结合科大讯飞Maple大数据平台与Odeon平台,科大讯飞做有针对性的用户画像,已经完成了人生阶段、行业偏好、购物兴趣、媒介兴趣5个大类共计1700个子标签的用户填充工作,累计覆盖12亿终端设备。例如,声纹识别技术对用户的性别划分、年龄划分很有帮助,如果仅靠传统的用户行为数据或日志数据是无法得到这些精准结论的。在对海量数据专业化处理的基础上,科大讯飞将数据资源应用到金融、教育、交通和游戏等领域,真正发挥了大数据的应用价值。

000

图3-5 Odeon平台的能力输出与核心价值