上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

第73章废话少说，放码过来

瑞秋和两位教授面面相觑。

这怎么就明白了？他们刚刚有说了什么特别关键的话吗？

“你明白什么了？知道怎么解决训练不收敛的问题了吗？”，瑞秋显得极为激动，一脸兴奋地问道。

此时顿悟因子的效果还在，江铭没再说话，仿佛是怕效果消失了似的。

他飞快从包中掏出笔记本电脑，把还在进行的训练停掉了，指尖飞舞地在先前的代码上修改起来。

“来不及解释了，你们直接看我代码吧。”，他说道。

其他几人点点头，很自然地围到了江铭左右，耐心等待起来。

信息学界有一句朗朗上口的名言：

“Talk is cheap. Show me the code.”

用中国话来说就是，废话少说，放码过来！

很多惊艳才绝的想法，用语言解释起来非常费劲，反而不如直接看代码逻辑呢。

江铭神情无比专注，不断敲击着键盘，如同一个专业的作曲家，一行行代码像音符一样被他轻松创作出来。

这情景很快便吸引了一些路过研究员的注意。

在午休时间，还是会议这种场合，竟能如此投入地工作，让人不禁暗暗佩服。

不过，大多人还不至于围过来观摩江铭写代码。

这种重量级的会议场合，正是和人社交，发展学术人脉的好时机，浪费在一时的工作上，断然不是好的选择。

...

钱峰与文森特正边讨论着问题边结伴而行，正巧路过江铭这里，顿时被江铭认真改代码的样子吸引了。

两人顿时噤声，悄悄走到了后边。

钱峰悄悄拍了拍面前正围观着的瑞秋，小声道：“他这是在做什么呢？”

瑞秋转过头，惊讶地发现自己身后竟然站着两位大牛教授，甚至都不知道他们看了多久。

她小声地把江铭正在做围棋程序的事跟两位教授讲了一遍。

围棋程序？

两位教授皱眉思考了半响。

“这的确是个难题。”，钱峰感叹：“我这段时间仔细研究了策略梯度算法，其中很大的一个难题就是探索效率。就像围棋这样的复杂问题，就是下一百万盘，也仅仅只探索了冰山一角。”

文森特也点头赞成：“是啊，我也不认为以当下我们的信息学技术，可以解决围棋策略的问题，我们的所设计的神经网络，相比于人脑而言，还是过于简单了，仅仅是一个数学拟合罢了。”

两人虽然都不相信这个问题能被解决，但还是对江铭正在编写的代码充满了好奇。

年轻人有这样的科研热情，自然是极好的，他们谁都不想去泼这个冷水。况且，观看江铭写代码的过程都足够赏心悦目了。

他们索性不走了，站在后面默默看着江铭继续他的代码修改。

江铭原本的围棋程序，主要包含三部分，被他分门别类地存放在三个文件中。

首先是train文件，存放着训练的主循环逻辑。

然后是environment文件，写着有关围棋的规则，以及智能体和环境交互的逻辑。这个文件可以想象成一个虚拟的棋盘，而智能体就是在这其中自我对弈自我训练的，

最后一个是policy文件，包含了智能体本身的神经网络结构，以及梯度反向传播的逻辑等等与智能体更新进化有关的内容。

此时，江铭已经把policy文件中的代码几乎删了个精光，只留下一个神经网络结构的代码。

这操作令一众教授都更加迷惑不解起来。

策略梯度算法，最关键的部分就是有关智能体的代码，从policy这个文件名就能看出，其实这部分代码才是真正的核心。

“这是要彻底放弃策略梯度了吗？”，文森特喃喃道：“嘶，也对，这个问题的确没法用这种方式来解...难道是他又想到了全新的方法？”

“但是，为什么还要保留有关神经网络的代码呢？这个神经网络如果没有策略梯度算法，该拿什么来训练呢？”

还未等文森特思考出结果，江铭竟用鼠标框选出神经网络这段代码，在下面又复制出一个一模一样的网络结构。

“这难道是想要把黑棋与白旗分开来，单独训练出两个智能体吗？”，文森特惊讶出声：“可是这有什么用呢，按理说这样也不会提高训练效率啊，还是没有解决探索效率问题。”

“不对，他好像没有准备这样做。”，钱峰盯着江铭的屏幕看，表情忽然变得严肃。

只见江铭连按几下删除键，删掉了这个新神经网络的最后一层输出层，原本通过softmax函数输出动作分布的一层，在江铭的修改下变成了输出一个值。

这是在做什么？钱峰更疑惑了，做一个输出一个值的神经网络又能有什么用呢？

众教授也是越凑越近，如果不是怕遮挡了江铭的视线，简直都要趴到屏幕上去。

似乎是怕大家看不懂，江铭沉吟片刻，便把两个神经网络改了一下名字，分别命名为行动者网络和评论家网络。

钱峰的双眼瞬间眯起，随即睁开了一丝难以置信。

这个命名一出来，他已经大概猜到了。

瑞秋的眼眸中也亮起一丝明悟的光，她捏紧拳头，暗自祈祷江铭的想法真的能成。

江铭的编写还在继续...

一分钟过去。

两分钟过去。

整整十分钟过去了。

两个神经网络的输入输出，模拟环境以及整个训练主循环，在他的编辑下，巧妙地组合在了一起。

众教授一点点看着江铭的代码，一言不发。

会展中心仍然充斥着不同学者交流的声音，但是在江铭周围，却是静悄悄的。

教授们都还在琢磨着这代码的运转逻辑。

并非是因为江铭的代码写得不清晰，而是这个训练的循环与普通的训练不同，甚至都不是像瑞秋的工作那样两个模型交替训练。

这个逻辑像是...

钱峰最先想明白了其中的关键，他忍不住惊呼：“我明白了！这，这真的太妙了。”

他指着江铭的屏幕，感叹道：“原来还能这样，江铭，你真是把神经网络用到了极致...”

本周热推：

病娇主人与刹神机甲一起拯救世界我主宰一片世界我有饲养天赋，投喂就能成长太空炮艇盘古号从小岛开始争霸全球

第73章 废话少说，放码过来

第73章废话少说，放码过来