1.2 人工智能的本质
举一个简单的例子,如果我们需要让机器具备识别狗的智能:第一种方式是将狗的特征(毛茸茸、四条腿、有尾巴……)告诉机器,机器将满足这些规则的东西识别为狗;第二种方式是完全不告诉机器狗有什么特征,但我们“喂”给机器10万幅狗的图片,机器就会自己从已有的图片中学习狗的特征,从而具备识别狗的智能。
其实,AI本质上是一个函数。AI其实就是我们“喂”给机器目前已有的数据,机器从这些数据中找出一个最能拟合(即最能满足)这些数据的函数,当有新的数据需要预测的时候,机器就可以通过这个函数来预测这个新数据对应的结果是什么。
对于一个具备某种AI智能的模型而言,一般具备以下要素:“数据”+“算法”+“模型”,理解了这三个词,AI的本质你也就搞清楚了。
我们用一个能够区分猫和狗图片的分类器模型来辅助理解一下这三个词:
● “数据”就是我们需要准备大量标注过是“猫”还是“狗”的图片。为什么要强调大量?因为只有数据量足够大,模型才能够学习到足够多且准确的区分猫和狗的特征,才能在区分猫和狗这个任务上表现出足够高的准确性;当然,在数据量不大的情况下,我们也可以训练模型,不过在新数据集上预测出来的结果往往就会差很多。
● “算法”指的是构建模型时打算用浅层的网络还是深层的网络,如果是深层的网络,我们要用多少层,每层有多少神经元,功能是什么,等等,也就是网络架构的设计,相当于确定了我们的预测函数大致结构应该是什么样的。
我们用Y=f(W,X,b)来表示这一函数,X是已有的用来训练的数据(猫和狗的图片),Y是已有的图片数据的标签(该图片是猫还是狗)。聪明的你会问:W和b呢?问得好,函数里的W(权重)和b(偏差)我们还不知道,这两个参数是需要机器学习后自己找出来的,找的过程也就是模型训练的过程。
● “模型”指的我们把数据代入算法中进行训练,机器就会不断地学习,当机器找到最优W(权重)和b(偏差)后,我们就说这个模型训练成功了,这个时候函数Y=f(W,X,b)就完全确定下来了。
然后就可以在已有的数据集外给模型一幅新的猫或狗的图片,模型就能通过函数Y=f(W,X,b)计算出这幅图的标签究竟是猫还是狗,这也就是所谓的模型的预测功能。
至此,你应该已经能够理解AI的本质了。我们再简单总结一下:无论是最简单的线性回归模型还是较复杂的拥有几十甚至上百个隐藏层的深度神经网络模型,本质都是寻找一个能够良好拟合目前已有数据的函数Y=f(W,X,b),并且希望这个函数在新的未知数据上能够表现良好。
前面提到的科沃斯发布的DG70,只提供一个“眼睛”和有限个传感器,但却要求其可以识别日常家居物品,比如前方遇到的障碍物是拖鞋还是很重的家具脚,可不可以推过去?如果遇到了衣服、抹布这种奇形怪状的软布,机器还需要准确识别出来以避免缠绕。
让扫地机器人完成图像识别大致会经过以下几个步骤:
步骤01 定义问题:就像刚刚说的,根据扫地机器人的使用场景,识别家居场景里面可能遇到的所有障碍物:家具、桌角、抹布、拖鞋等。有了这些类别定义,我们才可以训练一个多分类模型,针对扫地机器人眼前看到的物体进行分类,并且采取相应的规避动作。对于很多不了解机器学习的同学来说,能够理解到这一步其实已经是巨大的认知突破了。因为机器智能无法像人类一样学习,自我进化,举一反三。当前阶段的机器智能永远只能忠实执行人类交给他的任务。
步骤02 收集数据 & 训练模型:接下来接着收集数据,并且标注数据。现在的深度神经网络动不动就有几百万个参数,具有非常强大的表达能力。因此需要大量的数据,而且是标注数据。所谓标注数据,就是在收集了有关图片后,需要人工标注员一个一个判断这些图片是否属于上面已定义类别中的某一个。在工业界这个成本非常昂贵,一个任务一年可能要花费几百万美金,仅仅是为了做数据标注。有了高质量的标注数据,才有可能驱动深度神经网络拟合真实世界问题。
步骤03 这么复杂的人工智能运算在这个具体案例上是在本地机器上运行的。一方面,要保护用户隐私,不能将用户数据上传到云端;另一方面,扫地是一个动态过程,很多运算对时效性要求非常高,稍有延迟可能一不小心就撞到墙壁了。
综上所述,连简单的“识别拖鞋”都需要经过上面这么复杂的过程。因此,扫地机器人虽小,但其涉及的技术领域堪比自动驾驶。而对于自动驾驶汽车来说,其信号收集过程也跟上面差不多。不过为了保证信号的精确程度,现代的自动驾驶汽车除图像视觉信号外,车身还会配备更多的传感器,精确感知周围环境。