• 2022-06-07
    下列有关强化学习方法的说法正确的是()。
    A: 基于值函数强化学习通过不断评价一个行为的好坏进而改进策略,最终将得到一个期望回报很高的策略。
    B: 基于策略的强化学习主要用来解决状态空间过大或者不连续的情形。
    C: 深度强化学习能够实现高维度原始输入数据的感知和决策控制。现在越来越多应用于机器人领域。
    D: 基于策略的强化学习直接优化目标函数,对策略进行参数化表示,与值函数相比,策略化参数的方法更简单,更容易收敛。