首页
文章归档
分类
图库
友情链接
日志
关于
1
策略梯度(Policy Gradient)
2
张量分解
3
2022年第十三届蓝桥杯省赛C++ B组第一场
Cyan
一只小蒟蒻!
累计撰写
3
篇文章
累计创建
6
个标签
累计收到
2
条评论
导航
首页
文章归档
分类
图库
友情链接
日志
关于
目录
搜索
标签搜索
强化学习
算法竞赛
题解
蓝桥杯
数学
图像处理
策略梯度(Policy Gradient)
6 个月前
58
0
0
29.8℃
人工智能
1 前言强化学习讨论的问题是智能体在与环境交互过程中,如何最大化其所获得的的累积奖励问题。即要求我们学习一个合适的策略,在面对不同的状态时做出最优的决策从而获得最大的奖励。如下图。正如前面所介绍的,强化学习可以分为 Policy-Based 和 Value-Based。前者学习一个Actor根据其学
张量分解
1 年前
153
0
0
39.3℃
人工智能
一、张量基本术语1.1 阶(Order)张量的阶,即为张量的维度大小。1.2 纤维(Fibers)从张量中抽取出的一维向量,指固定其它维度,而某个维度的元素全部选取。例: 有一个三阶张量 Xi,j,kX_{i,j,k}Xi,j,k ,其列纤维(column fibers),行纤维(row fibe
2022年第十三届蓝桥杯省赛C++ B组第一场
1 年前
160
2
0
46℃
数据结构&算法
A. 九进制转十进制分析直接手算即可,就不编程了,答案 为 2×93+2×9+2=14782\times 9^3 +2 \times9+ 2 =14782×93+2×9+2=1478B. 顺子日期分析此题目前有有争议,题意没有交代清楚如 012 算不算顺子。本人考虑的是 012 计算在内的。前面 2