25h’blog

policy gradientsalgorithm 具体推导过程： reduce the high-variance强化学习出现高方差原因：策略更新所依赖的奖励信号，不仅包含了动作的真实价值，也包含了大量的随机噪声和不准确的因果关系。 baselineBaseline提供了一个对当前状态下预期回报的平滑估计，通过从实际回报中减去这个预期值抵消大部分由于环境随...

25h’blog

强化学习算法