25h’blog
25h’blog
Home
Archive
About
RSS
强化学习算法
2025-07-30
policy gradientsalgorithm 具体推导过程: reduce the high-variance强化学习出现高方差原因:策略更新所依赖的奖励信号,不仅包含了动作的真实价值,也包含了大量的随机噪声和不准确的因果关系。 baselineBaseline提供了一个对当前状态下预期回报的平滑估计,通过从实际回报中减去这个预期值抵消大部分由于环境随...
Read More
向上
Categories
learning
Tags
RL
Recent
强化学习算法