策略梯度(Policy Gradient)


1 前言强化学习讨论的问题是智能体在与环境交互过程中,如何最大化其所获得的的累积奖励问题。即要求我们学习一个合适的策略,在面对不同的状态时做出最优的决策从而获得最大的奖励。如下图。正如前面所介绍的,强化学习可以分为 Policy-Based 和 Value-Based。前者学习一个Actor根据其学

张量分解


一、张量基本术语1.1 阶(Order)张量的阶,即为张量的维度大小。1.2 纤维(Fibers)从张量中抽取出的一维向量,指固定其它维度,而某个维度的元素全部选取。例: 有一个三阶张量 Xi,j,kX_{i,j,k}Xi,j,k​ ,其列纤维(column fibers),行纤维(row fibe

2022年第十三届蓝桥杯省赛C++ B组第一场


A. 九进制转十进制分析直接手算即可,就不编程了,答案 为 2×93+2×9+2=14782\times 9^3 +2 \times9+ 2 =14782×93+2×9+2=1478B. 顺子日期分析此题目前有有争议,题意没有交代清楚如 012 算不算顺子。本人考虑的是 012 计算在内的。前面 2