第73章 废话少说,放码过来
瑞秋和两位教授面面相觑。
这怎么就明白了?他们刚刚有说了什么特别关键的话吗?
“你明白什么了?知道怎么解决训练不收敛的问题了吗?”,瑞秋显得极为激动,一脸兴奋地问道。
此时顿悟因子的效果还在,江铭没再说话,仿佛是怕效果消失了似的。
他飞快从包中掏出笔记本电脑,把还在进行的训练停掉了,指尖飞舞地在先前的代码上修改起来。
“来不及解释了,你们直接看我代码吧。”,他说道。
其他几人点点头,很自然地围到了江铭左右,耐心等待起来。
信息学界有一句朗朗上口的名言:
“Talk is cheap. Show me the code.”
用中国话来说就是,废话少说,放码过来!
很多惊艳才绝的想法,用语言解释起来非常费劲,反而不如直接看代码逻辑呢。
江铭神情无比专注,不断敲击着键盘,如同一个专业的作曲家,一行行代码像音符一样被他轻松创作出来。
这情景很快便吸引了一些路过研究员的注意。
在午休时间,还是会议这种场合,竟能如此投入地工作,让人不禁暗暗佩服。
不过,大多人还不至于围过来观摩江铭写代码。
这种重量级的会议场合,正是和人社交,发展学术人脉的好时机,浪费在一时的工作上,断然不是好的选择。
...
钱峰与文森特正边讨论着问题边结伴而行,正巧路过江铭这里,顿时被江铭认真改代码的样子吸引了。
两人顿时噤声,悄悄走到了后边。
钱峰悄悄拍了拍面前正围观着的瑞秋,小声道:“他这是在做什么呢?”
瑞秋转过头,惊讶地发现自己身后竟然站着两位大牛教授,甚至都不知道他们看了多久。
她小声地把江铭正在做围棋程序的事跟两位教授讲了一遍。
围棋程序?
两位教授皱眉思考了半响。
“这的确是个难题。”,钱峰感叹:“我这段时间仔细研究了策略梯度算法,其中很大的一个难题就是探索效率。就像围棋这样的复杂问题,就是下一百万盘,也仅仅只探索了冰山一角。”
文森特也点头赞成:“是啊,我也不认为以当下我们的信息学技术,可以解决围棋策略的问题,我们的所设计的神经网络,相比于人脑而言,还是过于简单了,仅仅是一个数学拟合罢了。”
两人虽然都不相信这个问题能被解决,但还是对江铭正在编写的代码充满了好奇。
年轻人有这样的科研热情,自然是极好的,他们谁都不想去泼这个冷水。况且,观看江铭写代码的过程都足够赏心悦目了。
他们索性不走了,站在后面默默看着江铭继续他的代码修改。
江铭原本的围棋程序,主要包含三部分,被他分门别类地存放在三个文件中。
首先是train文件,存放着训练的主循环逻辑。
然后是environment文件,写着有关围棋的规则,以及智能体和环境交互的逻辑。这个文件可以想象成一个虚拟的棋盘,而智能体就是在这其中自我对弈自我训练的,
最后一个是policy文件,包含了智能体本身的神经网络结构,以及梯度反向传播的逻辑等等与智能体更新进化有关的内容。
此时,江铭已经把policy文件中的代码几乎删了个精光,只留下一个神经网络结构的代码。
这操作令一众教授都更加迷惑不解起来。
策略梯度算法,最关键的部分就是有关智能体的代码,从policy这个文件名就能看出,其实这部分代码才是真正的核心。
“这是要彻底放弃策略梯度了吗?”,文森特喃喃道:“嘶,也对,这个问题的确没法用这种方式来解...难道是他又想到了全新的方法?”
“但是,为什么还要保留有关神经网络的代码呢?这个神经网络如果没有策略梯度算法,该拿什么来训练呢?”
还未等文森特思考出结果,江铭竟用鼠标框选出神经网络这段代码,在下面又复制出一个一模一样的网络结构。
“这难道是想要把黑棋与白旗分开来,单独训练出两个智能体吗?”,文森特惊讶出声:“可是这有什么用呢,按理说这样也不会提高训练效率啊,还是没有解决探索效率问题。”
“不对,他好像没有准备这样做。”,钱峰盯着江铭的屏幕看,表情忽然变得严肃。
只见江铭连按几下删除键,删掉了这个新神经网络的最后一层输出层,原本通过softmax函数输出动作分布的一层,在江铭的修改下变成了输出一个值。
这是在做什么?钱峰更疑惑了,做一个输出一个值的神经网络又能有什么用呢?
众教授也是越凑越近,如果不是怕遮挡了江铭的视线,简直都要趴到屏幕上去。
似乎是怕大家看不懂,江铭沉吟片刻,便把两个神经网络改了一下名字,分别命名为行动者网络和评论家网络。
钱峰的双眼瞬间眯起,随即睁开了一丝难以置信。
这个命名一出来,他已经大概猜到了。
瑞秋的眼眸中也亮起一丝明悟的光,她捏紧拳头,暗自祈祷江铭的想法真的能成。
江铭的编写还在继续...
一分钟过去。
两分钟过去。
整整十分钟过去了。
两个神经网络的输入输出,模拟环境以及整个训练主循环,在他的编辑下,巧妙地组合在了一起。
众教授一点点看着江铭的代码,一言不发。
会展中心仍然充斥着不同学者交流的声音,但是在江铭周围,却是静悄悄的。
教授们都还在琢磨着这代码的运转逻辑。
并非是因为江铭的代码写得不清晰,而是这个训练的循环与普通的训练不同,甚至都不是像瑞秋的工作那样两个模型交替训练。
这个逻辑像是...
钱峰最先想明白了其中的关键,他忍不住惊呼:“我明白了!这,这真的太妙了。”
他指着江铭的屏幕,感叹道:“原来还能这样,江铭,你真是把神经网络用到了极致...”