你的问题主要是读书不多而想得太多
You are too concerned with what was and what will be
Seq2Seq与Attention Seq2Seq与Attention
一、循环神经网络循环神经网络(Recurrent neural network,RNN) 和前馈神经网络(Feedforward Neural Network)的主要区别是: 网络 输入 输出 前馈神经网络 训练数据 训练后
2021-08-20
NLP中的Embedding和Padding NLP中的Embedding和Padding
1. Embedding在 自然语言处理(Natural Language Processing,NLP) 过程中,神经网络的输入一般是一段句子,句子有一个一个的字组成。 在输入神经网络之前,需要将这些字进行编码,常规的编码方式比如 One
2021-08-19
强化学习中的策略梯度与baseline 强化学习中的策略梯度与baseline
一、策略梯度中的 baseline 本小结的主要内容是做数学推导得到带 baseline 的策略梯度的公式。 策略梯度方法常用 baseline 来降低方差,可以让收敛更快。 1.1 baseline 的性质baseline 指的是一个函
2021-02-03
基于策略的强化学习 基于策略的强化学习
一、策略函数策略函数 $\pi(a|s)$ 的本质是一个概率密度函数(Probability Density Function, PDF)。它将从环境观察到的状态 $s$ 作为输入,输出所有动作中每个动作的概率。在需要执行动作时,就从这些动
2021-01-18
DQN中的高估问题及解决方案 DQN中的高估问题及解决方案
一、DQN 中的 BootstrappingBootstrapping,自举,字面意思是:拔自己的鞋带,把自己举起来。而 Bootstrapping 在强化学习中的意思是:用一个估算去更新同类的估算。 在 DQN 算法中,我们让 DQN 在
2021-01-03
强化学习中的经验回放 强化学习中的经验回放
一、时序差分学习(Temporal Difference Learning)强化学习中常用时序差分学习来更新模型,时序差分学习的一般流程是: 模型根据获取到的状态 $s_t$ 决定采取动作 $a_t$ 。 环境在执行动作 $a_t$ 后会
2020-12-23
强化学习中时序差分学习 强化学习中时序差分学习
在理解蒙特卡洛方法和时序差分学习一文中已经对时序差分学习进行了直观上的解释,本文中将具体的描述时序差分学习的数学推导过程及在强化学习中的应用。 一、时序差分学习的数学推导根据折扣回报(Discounted Return)的定义,有: \be
2020-12-19
理解蒙特卡洛方法和时序差分学习 理解蒙特卡洛方法和时序差分学习
学习机器学习时常常会用到蒙特卡洛方法和时序差分学习,所以对它们有一个直观的理解还是很重要的。本文通过举一个实际的例子来帮助理解。 假如要训练一个预估开车从成都到北京需要耗时多久的模型(Model),那么如何训练呢? 1. 蒙特卡洛方法
2020-12-18
理解强化学习中的基本概念 理解强化学习中的基本概念
一、随机变量变量的值无法预先确定仅以一定的可能性(概率)取值的量。 强化学习中一般用大写的字母表示随机变量,用小写的字母表示随机变量的观测值(确定的值)。 比如:掷骰子中,用大写的变量 $X$ 表示可能掷出来骰子的值。假如掷一次骰子,得到
2020-12-16
1 / 2