你的问题主要是读书不多而想得太多
You are too concerned with what was and what will be
《一线数据库工程师带你深入理解MySQL》学习笔记 《一线数据库工程师带你深入理解MySQL》学习笔记
第1章 SQL优化 01 开篇词3 提升 MySQL 水平的方式如果你没有 MySQL 的基础,建议可以看下面两本书籍,看完之后,可以简单处理一些优化: 《MySQL 必知必会》:主要讲 SQL 的写法; 《深入浅出 MySQL》:比较
2021-03-11
《MySQL必知必会》读书笔记 《MySQL必知必会》读书笔记
第1章 了解SQL 数据库(database) 保存有组织的数据的容器(通常是一个文件或一组文件)。 表(table) 某种特定类型数据的结构化清单。 模式(schema) 关于数据库和表的布局及特性的信息。 列(column) 表中
2021-03-04
强化学习中的策略梯度与baseline 强化学习中的策略梯度与baseline
一、策略梯度中的 baseline 本小结的主要内容是做数学推导得到带 baseline 的策略梯度的公式。 策略梯度方法常用 baseline 来降低方差,可以让收敛更快。 1.1 baseline 的性质baseline 指的是一个函
2021-02-03
基于策略的强化学习 基于策略的强化学习
一、策略函数策略函数 $\pi(a|s)$ 的本质是一个概率密度函数(Probability Density Function, PDF)。它将从环境观察到的状态 $s$ 作为输入,输出所有动作中每个动作的概率。在需要执行动作时,就从这些动
2021-01-18
DQN中的高估问题及解决方案 DQN中的高估问题及解决方案
一、DQN 中的 BootstrappingBootstrapping,自举,字面意思是:拔自己的鞋带,把自己举起来。而 Bootstrapping 在强化学习中的意思是:用一个估算去更新同类的估算。 在 DQN 算法中,我们让 DQN 在
2021-01-03
强化学习中的经验回放 强化学习中的经验回放
一、时序差分学习(Temporal Difference Learning)强化学习中常用时序差分学习来更新模型,时序差分学习的一般流程是: 模型根据获取到的状态 $s_t$ 决定采取动作 $a_t$ 。 环境在执行动作 $a_t$ 后会
2020-12-23
强化学习中时序差分学习 强化学习中时序差分学习
在理解蒙特卡洛方法和时序差分学习一文中已经对时序差分学习进行了直观上的解释,本文中将具体的描述时序差分学习的数学推导过程及在强化学习中的应用。 一、时序差分学习的数学推导根据折扣回报(Discounted Return)的定义,有: \be
2020-12-19
理解蒙特卡洛方法和时序差分学习 理解蒙特卡洛方法和时序差分学习
学习机器学习时常常会用到蒙特卡洛方法和时序差分学习,所以对它们有一个直观的理解还是很重要的。本文通过举一个实际的例子来帮助理解。 假如要训练一个预估开车从成都到北京需要耗时多久的模型(Model),那么如何训练呢? 1. 蒙特卡洛方法
2020-12-18
理解强化学习中的基本概念 理解强化学习中的基本概念
一、随机变量变量的值无法预先确定仅以一定的可能性(概率)取值的量。 强化学习中一般用大写的字母表示随机变量,用小写的字母表示随机变量的观测值(确定的值)。 比如:掷骰子中,用大写的变量 $X$ 表示可能掷出来骰子的值。假如掷一次骰子,得到
2020-12-16
5 / 9