2018-09-11

Reinforcement Learning

入门Environment是确定的，还有一个Replay Memory来保存已被观测到的状态转移他们的目标是训练一个discounted并且cumulative的Reward函数。他让更久之后的reward的重要性降低。 Q-learning的主要思想是，如果我们有了一个Q函数 $Q^*: State \times Action \rightarrow \mathbb{R}$那么我们就能够知道我们

Blog

归档: 2018/9

Reinforcement Learning