大数据智能核心技术入门:从大数据到人工智能
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

5 大数据智能的马太效应

DT技术新解

从前些年到现在,物联网、云计算、大数据、人工智能等前沿信息技术领域,逐个火了一遍。这是信息时代向智能时代转变的必然。2014年,马云提出了一个观点:“人类正从IT时代走向DT时代。”他认为IT(Information Technology)技术以自我控制、自我管理为主,而DT(Data Technology)技术,则以融合分享、服务大众、激发生产力为主。信息技术跨入数据技术时代,那么“信息”变成了“数据”有什么玄妙?为什么以前叫信息,现在叫数据?我们换个角度来理解DT技术,这跟我们大脑的信息处理能力有关!信息时代,我们接触的是小数据,传统管理信息系统查询出来的记录、统计报表等,这些小数据对我们的大脑来讲,其实就是直接的信息,因为我们能快速把数据加工成能理解的信息。大数据时代,我们被海量的数据、资讯淹没了,所以从数据样本的规模来讲,信息的价值密度降低了,有用的信息反而更难获取了,一眼看去只剩下海量数据,而要把大数据提炼成有价值的小数据,除非你掌握高效的大数据分析技术和工具,才能从海量数据中抽取、提炼出有价值的信息,从而获得深度洞察力!大数据时代的搜索引擎就是很好的例子,好的搜索引擎会让我们很快找到有价值的信息,而坏的搜索引擎却很可能会误导我们,搜索引擎对我们获取信息如此重要,其本质也是一种大数据的抽取和提炼。

更严重的问题是,数据大爆炸还带来了数据“噪声”和假数据,大数据里面很可能含有很多垃圾数据和虚假数据,这类数据有人为的也有因机器出错产生的。就像在某些搜索引擎搜索诊病相关内容会有假药信息。我们的大脑被正确的数据淹没还好,要是被垃圾数据淹没,后果可想而知!我们的微信朋友圈信息、微博信息有多少是真、多少是假、多少是噪音、多少是有价值的知识,很多内容经不起推敲(比如有基于大数据的舆情分析技术,基于深度学习的假新闻识别技术)。大数据和自媒体时代,权威的知识在逐步弱化,对大数据的精心包装和控制成为可能。这对个人来讲,获取真实的、有价值的信息,其成本(包括知识成本和技术成本)只会越来越高。那对企业、机构和政府来讲呢?也是一样的结果,IT在向DT发展的过程中,大数据条件下获取有价值信息的代价会越来越大!这考验的不仅仅是个人的信息获取能力,各行各业领导的决策能力同样面临着极大的挑战。

技术洞察DT技术泛型的变革

马云从社科角度提出了DT时代这一创新理念,IT时代是以自我控制、自我管理为主的,而DT时代,则以服务大众、激发生产力为主。如果从技术角度来解读(见表1-1):IT技术重在数据治理,通过信息化获取基础数据,把数据管起来,小数据的价值密度高,大脑认知还可以理解;DT技术重在数据应用,特别是在大数据价值密度较低的情况下,如不善于过滤、提炼和挖掘,被数据“噪声”淹没的风险较大,依托DT技术提升工作效率和业务水平势在必行。IT技术崇尚“个人英雄主义”, DT技术崇尚分享的“集体主义”,分布式协作和融合共享(如Hadoop、Spark等的系统架构)基于DT技术生态,站在巨人的肩膀(云计算、云服务)上更容易成功,比如APP生态、三方公共服务接口的便捷使用等。

表1-1

强者越强,弱者越弱

李开复曾提到硅谷这几年的一个现象:“做深度学习的人工智能博士,一毕业就能拿到200到300万美元的年收入,这是有史以来没有发生过的。”李开复:我在硅谷看到的最前沿科技趋势。与之相比的是,美国大学生的平均终生薪金收入是230万美元,可见各大IT巨头在深度学习和人工智能这个领域押下了多重的筹码,IT巨头们在赌一个所谓的“风口”。我们从人类社会的发展来看,经历了农业时代、工业时代和当今的信息时代,借助大数据、智能算法和高性能计算资源,现在正是跨越智能时代的关键节点,很大程度上就看这拨以深度学习为代表的大数据智能技术,能否担当得起如蒸汽机、电灯和互联网这样重大的历史性变革技术使命。在高科技领域,一项顶级技术或产品的研发骨干为公司带来的长远价值很多时候是难以估量的,越是技术实力强的企业,越能吸引顶级人才的加入。这种集聚效应带来的负面效应也很明显,对其他同领域中小企业造成的压力显而易见,顶级团队产品的垄断优势会让普通企业的产品根本无法生存,只能退而求其次寻求差异化来竞争。总之,一位顶级人才的100万美元年薪可能意味着数十位,甚至数百位普通工程师的失业,强者越强,弱者更弱所带来的产业垄断问题会越来越明显。

大数据智能三要素决定了加速垄断的基因:闭环大数据资源、顶级机器学习技术团队、大规模服务集群的算力,三者都需要极高的技术门槛和强大的人力、物力、财力支持。而大数据和人工智能的核心优势在于规模效应,你的业务量越大、业务覆盖性越广,数据规模就越大,大数据智能技术投入的成本就越容易被摊薄,而获取的长远价值就越巨大。近年来,不少创业团队或顶级人才被阿里系、腾讯系或百度系悉数收割,可见一斑。国外以Google为例,可以说没有Andy Rubin(安卓创始人,开启了移动互联网时代)、Hinton(深度学习开创者)、Demis Hassabis(AlphaGo创始人)、Fei-Fei Li(ImageNet创始人)等一票大牛的加入,就没有Google当今的AI霸主地位。另外,企业巨头和政府是适合大数据智能的超级玩家,这也是为什么大数据独角兽Palantir的产品只有政府版和金融版的原因!这些巨头们的产品和技术,我们会在第5章进行详细解读。

挑战才刚刚开始

虽然大数据智能目前还处于弱AI应用阶段,但越是强大的技术,其自身发展的速度越是难以想象的,当Google的自动驾驶狗(已行驶超200万公里)、医疗狗(DeepMind各种疾病诊断AI已初显身手)、翻译狗(Google几十种语言的自动翻译)、军事狗、金融狗等各种“狗”连成一片的时候,工业机器人必将走出牢笼,变身各种机器助手进入到你我的家里和办公室里,而“狗”的服务端则会像电力一样提供源源不断的智能服务,那时弱AI应用普及的时代就来到了。

这一发展趋势下的首要问题是如何解决安全、垄断和对传统社会各方面造成的负面影响?这是马斯克创立OpenAI联盟的原因OpenAI是一个非营利性的人工智能研究联盟,致力于AI的安全性研究,目的是使未来的通用AI能由人类控制。。智能时代的若干企业大数据中心、政府大数据中心和地球上的数朵大云,将会插上智能科学的翅膀,成为AI时代的关键基础设施,到时大数据技术如何演化,国家又会呈现出怎样的社会形态,现在还无法知晓。但可以肯定的是,不管是国家、企业还是个人,大数据智能高速发展带来的马太效应才刚刚开始。主要挑战表现在如下几个方面。

(1)对个人来讲,如何跟上这一拨技术革命,不至于被自动化、智能化的机器劳动力所淘汰,是未来个人学习、工作和生活面临的最大挑战。大数据智能的发展速度只会越来越快,我们工作的变化也会越来越快。IBM的Watson在有足够病例和病理知识的输入下,其对一般病症的判定准确率已经相当于初级医生的水平IBM的Watson认知智能解决方案。,换句话说,它可以替代大多数社区医院的医生。其在律师行业的应用也能作为助理律师处理一般性事务。面对各产业领域的智能化应用变革,机器劳动力正在汹涌而来,很多的蓝领或白领工作将被取代,这是毫无疑问的,在这种情况下,我们该怎么升级自己的学习能力和知识体系以适应智能时代的革命?需要引起我们的重视。

(2)对企业来讲,大数据信息的加工速度代表了未来企业的生产力。各大企业的智能云端战略在加速人工智能生态的突破,从现在互联网企业的布局可见一斑,BAT的格局短期内难以撼动,出现滴滴、摩拜、Airbnb等新兴大数据商业模式,大浪淘沙式的竞争越发激烈。大数据智能时代会加剧这一趋势,强者越强,弱者越弱,AI的顶端容不下几位玩家,不管是智慧云还是智能端,都会是这样。智能化的产品服务能力将会越来越重要。

(3)对国家来讲,科技加速在推动社会各领域演变加速的同时,也会对经济和治理生态进行重构。从某种程度上讲,大数据智能的发展不只是技术问题,同时也是社会问题,比如失业问题、社会伦理道德问题、产业结构问题、隐私和安全保护问题等。特别是面对强AI技术的研发和应用,如何保障安全控制和降低技术革命的负面影响?值得高层决策者深思。

当然,大数据智能的应用还存在着变数,那就是人工智能发展几十年,历史上数次悲观或乐观的预测大多失败了,未来数十年内会不会产生突变呢?谁也说不准,另外强AI能否实现,这得看未来数十年或数百年里,是否有某位大牛提出了机器智能的终极算法?抑或是Google机器农场中的某个深度网络初步解码了人类大脑的学习机制。总之,大数据智能的崛起在昭示着弱AI的觉醒,而强AI的研发对于人类而言却是吉凶莫测。