马尔可夫决策过程
马尔可夫决策过程
马尔可夫过程
马尔可夫奖励过程
回报与价值函数
V函数的贝尔曼方程
计算马尔可夫奖励过程价值的迭代算法
马尔可夫决策过程
马尔可夫决策过程中的策略
马尔可夫决策过程中的价值函数
Q函数的贝尔曼方程
备份图
预测与控制
动态规划解决马尔可夫决策过程
马尔可夫决策过程的策略评估
马尔可夫决策过程控制
概念:
范围(horizon):一个回合的长度
回报(return):奖励折扣后获得的收益
状态价值函数:回报的期望
马尔可夫决策过程
强化学习的过程可以用马尔可夫过程来描述,因为当前状态只和前一个状态以及采取的action有关。马尔可夫决策过程 是强化学习的一个基本框架。
首先介绍马尔可夫奖励过程,它是马尔可夫决策过程的一个简化版本。
接下来会介绍马尔可夫决策过程中的策略评估,给定一个决策,怎么计算它的价值。
最后会介绍马尔可夫决策过程中的决策控制,包含策略迭代和价值迭代两种方式。
马尔可夫过程
马尔可夫性:
当前状态只依赖于前一个状态。
马尔可夫过程/马尔可夫链
可以用状态转移矩阵描述,略。
马尔可夫奖励过程
Markov reward proc ...
强化学习概述
强化学习概述
强化学习
强化学习与监督学习
序列决策介绍
奖励
序列决策
动作空间
强化学习智能体的组成成分和类型
策略
价值函数
模型
举例
强化学习智能体类型
价值 vs 策略
有模型 vs 免模型
学习与规划
探索和利用
EasyRL 阅读笔记
强化学习概述
强化学习
强化学习中存在两个角色:agent 和 env。agent 根据从env获得的observation(or state)作出action,env根据action给agent相应的reward,同时action也会对环境作出改变。agent再从env获得observation(由于之前的action改变了环境,导致产生了和之前不同的observation)。。
强化学习的一个重要优势在于,它可以超越人类。对于有监督学习来说,由于数据是人类标注的,因此模型的上限就是人类的表现,模型不能超越人类。但是强化学习的数据没有人类的标注,因此它有超越人类表现的可能。
强化学习与监督学习
监督学习的假设:
输入数据之间不存在关联。它假设数据之间是iid的
数据是有标签的,学习器可以通过标签来 ...
RNN
CNN
RNN
LSTM
VARIANTS ON LSTM
PEEPHOLE VERSION
SHARED GATE
GRU(待补充)
BILSTM
TRANSFORMER
ENCODER
SELF-ATTENTION
RESIDUALS
DECODER
Self Regression
CNN
特点:参数共享
引入卷积核的原因在于全连接层所需的参数太多容易过拟合
卷积的作用
卷积核对应图片之中的感受野,卷积上的权重表现了图片不同位置的focus。
sobel算子:[[-1, 0, 1], [-2, 0, 2], [-1, 0, 1]] 可以检测水平梯度,也就是检测纵向边缘。而[[-1, -2, -1], [0, 0, 0], [1, 2, 1]] 可以检测纵向梯度,也就是横向边缘。
小卷积核 vs 大卷积核
多个小卷积核可以起到一个大卷积核的作用。比如2个3x3的卷积核和1个5x5的卷积核可以起到相同的作用。而2x9x9 < 5 * 5 因此采用多个小卷积核可以起到减少参数,防止过拟合的作用。
Dropout
每次输入都有一定概率删除部 ...