浙大人工智能专家谈AlphaGo 功力日渐提升 期待更加稳健

曾福泉

2017年04月11日08:44  来源:浙江日报
 
原标题:功力日渐提升 期待更加稳健

AlphaGo和世界围棋第一人柯洁即将在乌镇对决的消息甫一公布,“人机大战”立刻引起关注。AlphaGo有哪些特点?又做了哪些改进?记者专访了浙江大学人工智能研究所所长吴飞教授。

一年多来,AlphaGo进入人们视野的共有3个版本:5比0击败欧洲业余冠军樊麾二段的内测版本;4比1击败李世石的版本;2017年初,以Master网名在网络快棋对弈中60比0挑落几乎全部中日韩高手的版本。3个版本演进脉络明显,每次迭代都有重大升级。“我们在AlphaGo身上看到,人工智能实现了从规则驱动到数据驱动以及从数据中自我完善学习的转变。”吴飞说。

传统的人机围棋对战,开发者教给电脑的是一条条规则,也就是人类已经掌握的对弈知识与策略。“这些策略是有限的,并且是过去的,人类棋手随时可根据棋盘局势而考虑设计新的策略。”但AlphaGo截然不同,它依靠2010年以来不断成熟的深度学习技术,从海量数据中直接学习取胜之道。另外,AlphaGo还可以在短时间内进行数以百万计的自我对弈的强化学习,其“功力”的提升,确实达到了三日不见当刮目相看的程度。

“AlphaGo身上凝聚的这些技术——深度学习、蒙特卡洛树搜索、强化学习——并非其开发团队原创,有的是已经发展了多年的老技术。但是把这些技术集成在一个人工智能身上,取得了很有效的成果,是AlphaGo令人惊艳之处。”吴飞说。

不过,在吴飞看来,AlphaGo仍然不是一个稳健的AI。“它的决策过程一直是个黑盒子,我们只看到它这样走棋,却不能解释它为什么这样走棋。这样的AI就比较危险,因为其合理性得不到保证。”吴飞说,“在与柯洁的对战中,我关心的是AlphaGo身上不稳健AI的阴影多大程度上能够消散。”

在此前与人类的对战中,AlphaGo曾多次走出人类选手眼中的“昏招”,并曾在与李世石的对弈中输掉一局。吴飞认为,实际上AlphaGo在每下一个棋子时,会考虑3个因素,这个落子要导致棋局的最终胜利、这个落子在先前棋局中出现概率小——以达到出奇招的目的、这个落子符合人类选手的先验知识。在去年比赛中,我们已经看到了AlphaGo在这3个因素中很难取得完全的平衡,如AlphaGo会争取最终胜利而忽视当前落子优势或者出奇招而忽略最终胜利。之所以会产生这样的印象,是因为AlphaGo比赛中在3个因素之间无法寻找一种良性的平衡。因此,这意味着AI也不是每一步都能走得很完美。“这也是不稳健的表现。”吴飞说,“我们好奇的是,在与柯洁的对弈中,AlphaGo今年对这3种因素的学习是否更为稳健,或者更为可解释?”

(责编:王丽玮、翁迪凯)

原创推荐