判断题强化学习中的策略梯度方法是一种直接优化策略参数的算法,不需要估计价值函数。

您可能感兴趣的试卷