在内容中,研究者重点关注了「神经网络是如何学习的」「知识又如何被量化表示」等问题。
有意思的是,他们发现:
在没有人类对弈指导下,AlphaZero 仍形成了一套类似专业棋手才懂的概念体系。研究者还进一步探寻了这些概念何时何处形成。
此外,他们还对比了 AlphaZero 与人类开局棋风的不同。
有网友感慨,这是个影响深远的工作:
也有人感慨,AlphaZero 能计算任何人类行为特征了?!
欲知更多观察结果,往下看。
掀起了神经网络的头盖骨
AlphaZero 于 2017 年由 DeepMind 发布并一鸣惊人。
这是一种神经网络驱动的强化学习器,专精于棋类,内部包含了残差网络(ResNet)骨干网及分离的策略及价值 heads。
其输出函数可表示如下,z 为国际象棋排布情况:
为研究 AlphaZero 如何「学习」的,研究者构建了一个人类理解国际象棋的函数 c (z0)。其中,z0 为一个象棋特定排布概念,c (z0) 以专业国际象棋引擎 Stockfish 8 评估分数作为参考。
再从 AlphaZero 角度,设一个广义线性函数 g (zd),作为在不同层取值的探针。训练设定下,g (zd) 将不断趋近