Alphago 是如何下棋的?
- https://www.zhihu.com/question/41176911
- 蒙特卡洛树搜索 (MCTS) 是大框架,是许多牛逼博弈AI都会采用的算法
- Rollout
- Reinforcement Learning强化学习 (RL) 是学习方法,用来提升AI的实力
- Q(s,a), V(s)
- s 表示局面狀態
- a 表示下一步行動
- Q意思為policy function 策略函數
- V意思為Value function 局面函數
- 深度神经网络 (DNN) 是工具,用来拟合局面评估函数和策略函数
DHC
http://www.hksilicon.com/articles/1208985
DNN Deep Neural Networks 深度神經網絡
DBN Deep belief networks 深度置信網絡
https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0
CNN Convolutional deep belief networks 卷積深度置信網絡
https://zh.wikipedia.org/wiki/%E5%8D%B7%E7%A7%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C

