Cyan's Blog

策略梯度(Policy Gradient)

1 前言强化学习讨论的问题是智能体在与环境交互过程中，如何最大化其所获得的的累积奖励问题。即要求我们学习一个合适的策略，在面对不同的状态时做出最优的决策从而获得最大的奖励。如下图。正如前面所介绍的，强化学习可以分为 Policy-Based 和 Value-Based。前者学习一个Actor根据其学

张量分解

人工智能

一、张量基本术语1.1 阶(Order)张量的阶，即为张量的维度大小。1.2 纤维(Fibers)从张量中抽取出的一维向量，指固定其它维度，而某个维度的元素全部选取。例：有一个三阶张量 Xi,j,kX_{i,j,k}Xi,j,k ，其列纤维（column fibers），行纤维（row fibe

2022年第十三届蓝桥杯省赛C++ B组第一场

数据结构&算法

A. 九进制转十进制分析直接手算即可，就不编程了，答案为 2×93+2×9+2=14782\times 9^3 +2 \times9+ 2 =14782×93+2×9+2=1478B. 顺子日期分析此题目前有有争议，题意没有交代清楚如 012 算不算顺子。本人考虑的是 012 计算在内的。前面 2