首页 > 科技视点 > 正文
分享到:

登顶 5 年后,人类揭开AlphaZero学会下棋的奥秘

时间:2022-11-19 21:44:52 来源:搜狐 评论:0 点击:0
  这两天,DeepMind 及谷歌大脑一篇文章被《美国国家科学院院刊》(PNAS) 收录,其内容正是以 5 年前发布的 AlphaZero 为例,研究神经网络如何获取并理解国际象棋知识。

  在内容中,研究者重点关注了「神经网络是如何学习的」「知识又如何被量化表示」等问题。

  有意思的是,他们发现:

  在没有人类对弈指导下,AlphaZero 仍形成了一套类似专业棋手才懂的概念体系。研究者还进一步探寻了这些概念何时何处形成。

  此外,他们还对比了 AlphaZero 与人类开局棋风的不同。

  有网友感慨,这是个影响深远的工作:

  也有人感慨,AlphaZero 能计算任何人类行为特征了?!

  欲知更多观察结果,往下看。

  掀起了神经网络的头盖骨

  AlphaZero 于 2017 年由 DeepMind 发布并一鸣惊人。

  这是一种神经网络驱动的强化学习器,专精于棋类,内部包含了残差网络(ResNet)骨干网及分离的策略及价值 heads。

  其输出函数可表示如下,z 为国际象棋排布情况:

  为研究 AlphaZero 如何「学习」的,研究者构建了一个人类理解国际象棋的函数 c (z0)。其中,z0 为一个象棋特定排布概念,c (z0) 以专业国际象棋引擎 Stockfish 8 评估分数作为参考。

  再从 AlphaZero 角度,设一个广义线性函数 g (zd),作为在不同层取值的探针。训练设定下,g (zd) 将不断趋近