首页
文章归档
分类
图库
友情链接
日志
关于
1
策略梯度(Policy Gradient)
2
张量分解
3
2022年第十三届蓝桥杯省赛C++ B组第一场
Cyan
一只小蒟蒻!
累计撰写
3
篇文章
累计创建
6
个标签
累计收到
2
条评论
导航
首页
文章归档
分类
图库
友情链接
日志
关于
目录
搜索
标签搜索
强化学习
算法竞赛
题解
蓝桥杯
数学
图像处理
标签
强化学习
策略梯度(Policy Gradient)
6 个月前
63
0
0
30.3℃
人工智能
1 前言强化学习讨论的问题是智能体在与环境交互过程中,如何最大化其所获得的的累积奖励问题。即要求我们学习一个合适的策略,在面对不同的状态时做出最优的决策从而获得最大的奖励。如下图。正如前面所介绍的,强化学习可以分为 Policy-Based 和 Value-Based。前者学习一个Actor根据其学