论文里说 在AlphaGo中,增强学习(Reinforcement Learning)所扮演的角色并没有想像中那么大。在理想情况下,我们希望人工智能系统能在对局中动态地适应环境和对手的招式并且找到办法反制之,但是在AlphaGo中增强学习更多地是用于提供更多质量更好的样本,给有监督学习(Supervised Learning)以训练出更好的模型。在这方面增强学习还有很长的路要走。
意思就是我从零开始训练,效果很不好,只好找大量棋谱输入了,在棋谱的基础上开始训练,发现效果很好,我用棋谱继续挖掘,找出更好的下法,计算量大幅度减少。所以普通人拿到源码,没有棋谱,没有谷歌那样规模的集群,只能干瞪眼