下列有关强化学习方法的说法正确的是()。 A: 基于值函数强化学习通过不断评价一个行为的好坏进而改进策略,最终将得到一个期望回报很高的策略。 B: 基于策略的强化学习主要用来解决状态空间过大或者不连续的情形。 C: 深度强化学习能够实现高维度原始输入数据的感知和决策控制。现在越来越多应用于机器人领域。 D: 基于策略的强化学习直接优化目标函数，对策略进行参数化表示，与值函数相比，策略化参数的方法更简单，更容易收敛。

公告：维护QQ群：833371870，欢迎加入！
公告：维护QQ群：833371870，欢迎加入！
公告：维护QQ群：833371870，欢迎加入！

2022-06-07

下列有关强化学习方法的说法正确的是()。 A: 基于值函数强化学习通过不断评价一个行为的好坏进而改进策略,最终将得到一个期望回报很高的策略。 B: 基于策略的强化学习主要用来解决状态空间过大或者不连续的情形。 C: 深度强化学习能够实现高维度原始输入数据的感知和决策控制。现在越来越多应用于机器人领域。 D: 基于策略的强化学习直接优化目标函数，对策略进行参数化表示，与值函数相比，策略化参数的方法更简单，更容易收敛。

下列有关强化学习方法的说法正确的是()。
A: 基于值函数强化学习通过不断评价一个行为的好坏进而改进策略,最终将得到一个期望回报很高的策略。
B: 基于策略的强化学习主要用来解决状态空间过大或者不连续的情形。
C: 深度强化学习能够实现高维度原始输入数据的感知和决策控制。现在越来越多应用于机器人领域。
D: 基于策略的强化学习直接优化目标函数，对策略进行参数化表示，与值函数相比，策略化参数的方法更简单，更容易收敛。

答案：

查看

举一反三