归档: 2018/9

0

Reinforcement Learning

入门Environment是确定的,还有一个Replay Memory来保存已被观测到的状态转移他们的目标是训练一个discounted并且cumulative的Reward函数。他让更久之后的reward的重要性降低。 Q-learning的主要思想是,如果我们有了一个Q函数 $Q^*: State \times Action \rightarrow \mathbb{R}$那么我们就能够知道我们