1 前言强化学习讨论的问题是智能体在与环境交互过程中,如何最大化其所获得的的累积奖励问题。即要求我们学习一个合适的策略,在面对不同的状态时做出最优的决策从而获得最大的奖励。如下图。正如前面所介绍的,强化学习可以分为 Policy-Based 和 Value-Based。前者学习一个Actor根据其学