《架构师》2019年6月
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

人工智能的成功取决于数据

作者MongoDB中文社区主席 唐建法

最近,清华大学教授、中国科学院张钹院士在接受经济观察报的时候提到:“基于深度学习的人工智能在技术上已经触及天花板,AI奇迹短期难以再现。”这无疑为许许多多仍然以AI为主要业务亮点的创业公司敲响了警钟。

当下,人工智能已经成为一个流行语。从语音识别到自动客服,从人脸图像识别到自动驾驶,不可否认,AI已经实实在在出现在我们的生活中了。AI创业公司更是热情甚高,动辄即称AI驱动,就连世界级大牌公司Oracle也不例外,前段时间的Oracle Autonomous Database,按照Larry的说法,通过AI和ML技术,做到了“Totally Automated, Self-Driving”(全部自动,自运行),不再需要人类来管理或者调优。我觉得要么是Larry在骗我,要么最近作为数据库顾问加入Oracle的朋友在骗我——如果Larry说实话的话,为什么Oracle还要继续大量招聘为客户做数据库维护性能调优的顾问?

像大数据一样,对人工智能的炒作也导致了一种趋势,即每个供应商都声称在技术、解决方案或产品中利用了它,都说要改变、替代人类,从而造成了一个良莠不齐、极度混淆的技术怪圈。

事实上,就像大数据技术不能解决所有的企业数据问题一样,AI也不能用来解决所有问题。如果想了解AI最应该用在何处,并且最容易成功,我们必须先了解AI的真正含义。

AI或机器学习是指一组广泛的算法,如果训练得当,它们可以解决一组特定的问题。把机器学习算法集成到产品中其实是微不足道的——有大量公开的算法可以用,但有效地使用数据来训练算法并执行任务却并非那么简单。事实上,一个AI项目从开始施行到初有成效,多达80%的精力都是用在数据准备上的。

当有大量丰富的数据可用时,AI效果是最佳的。数据量越大,覆盖维度越多,算法学习和调整预测分析的速度就越快。根据行业预测,在2018年,人工智能的最大限制——高质量数据,将变得更加明显。成功的机器学习取决于大型和广泛的数据集,以及对这些数据的有效管理。

谁能够获得最优质最全面的原始数据,谁掌握最成熟的数据处理与加工技术,才是未来真正AI项目的核心能力。所以,对很多不明真相的技术人来说,与其盲目的追捧AI,不如实实在在地掌握精通数据处理的技术,这才是一条不会受到泡沫破裂而影响的务实之路。