()就是程序或智能体(agent)通过与环境不断地进行交互学习完成从环境到动作的映射,学习的目标就是使累计回报最大化。
A: 监督学习
B: 非监督学习
C: 强化学习
D: 非强化学习
A: 监督学习
B: 非监督学习
C: 强化学习
D: 非强化学习
举一反三
- 强化学习时机器学习算法的一种,就是程序或智能体(agent)通过与环境不断地进行交互学习完成从环境到动作的映射,学习的目标就是使累计回报最大化。
- 中国大学MOOC: ()就是程序或智能体(agent)通过与环境不断地进行交互学习完成从环境到动作的映射,学习的目标就是使累计回报最大化。
- ____有跟环境进行交互,从反馈当中进行不断的学习的过程? 强化学习|非监督学习|监督学习|线性回归
- ()有跟环境进行交互,从反馈当中进行不断的学习的过程。 A: 监督学习 B: 非监督学习 C: 强化学习 D: 线性回归
- 强化学习是机器学习中与( )和( )平行的一种学习方法,是智能体自主与外界环境交互任务的重要手段,通过最大化目标函数的学习方法获取从环境状况到行为的映射。 A: 迁移学习 B: 无监督学习 C: 深度学习 D: 监督学习