Leunging: Deep Mind

Sunday, May 28, 2017

Deep Mind

Alphago 是如何下棋的?

https://www.zhihu.com/question/41176911

蒙特卡洛树搜索 (MCTS) 是大框架，是许多牛逼博弈AI都会采用的算法

Rollout

Reinforcement Learning强化学习 (RL) 是学习方法，用来提升AI的实力

Q(s,a), V(s)

s 表示局面狀態
a 表示下一步行動
Q意思為policy function 策略函數
V意思為Value function 局面函數

深度神经网络 (DNN) 是工具，用来拟合局面评估函数和策略函数

DHC

http://www.hksilicon.com/articles/1208985

DNN Deep Neural Networks 深度神經網絡
DBN Deep belief networks 深度置信網絡
https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0

CNN Convolutional deep belief networks 卷積深度置信網絡
https://zh.wikipedia.org/wiki/%E5%8D%B7%E7%A7%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C

http://karpathy.github.io/

No comments:

Post a Comment

Subscribe to: Post Comments (Atom)