分类: 机器学习

文章分类
算法 6 Linux 12 编程语言 3 机器学习 10 网络 6 Windows 2 读书笔记 8 学习笔记 18 软件工程 2 计算机基础 2 后端架构 1 翻译 1
                            
                            Seq2Seq与Attention
                        
                                一、循环神经网络循环神经网络（Recurrent neural network，RNN） 和前馈神经网络（Feedforward Neural Network）的主要区别是：

网络
输入
输出

前馈神经网络
训练数据
训练后
                            
                                2021-08-20
                            
                                    机器学习
                                
                            rnn
                        
                            brnn
                        
                            lstm
                        
                            gru
                        
                            seq2seq
                        
                            attention
                        
                            NLP中的Embedding和Padding
                        
                                1. Embedding在 自然语言处理（Natural Language Processing，NLP） 过程中，神经网络的输入一般是一段句子，句子有一个一个的字组成。
在输入神经网络之前，需要将这些字进行编码，常规的编码方式比如 One
                            
                                2021-08-19
                            
                                    机器学习
                                
                            pytorch
                        
                            keras
                        
                            embedding
                        
                            padding
                        
                            强化学习中的策略梯度与baseline
                        
                                一、策略梯度中的 baseline
本小结的主要内容是做数学推导得到带 baseline 的策略梯度的公式。

策略梯度方法常用 baseline 来降低方差，可以让收敛更快。
1.1 baseline 的性质baseline 指的是一个函
                            
                                2021-02-03
                            
                                    机器学习
                                
                            策略梯度
                        
                            baseline
                        
                            蒙特卡洛
                        
                            基于策略的强化学习
                        
                                一、策略函数策略函数 $\pi(a|s)$ 的本质是一个概率密度函数（Probability Density Function， PDF）。它将从环境观察到的状态 $s$ 作为输入，输出所有动作中每个动作的概率。在需要执行动作时，就从这些动
                            
                                2021-01-18
                            
                                    机器学习
                                
                            策略函数
                        
                            策略网络
                        
                            策略梯度
                        
                            策略学习
                        
                            Actor-Critic
                        
                            DQN中的高估问题及解决方案
                        
                                一、DQN 中的 BootstrappingBootstrapping，自举，字面意思是：拔自己的鞋带，把自己举起来。而 Bootstrapping 在强化学习中的意思是：用一个估算去更新同类的估算。
在 DQN 算法中，我们让 DQN 在
                            
                                2021-01-03
                            
                                    机器学习
                                
                            高估问题
                        
                            Target Network
                        
                            Double DQN
                        
                            强化学习中的经验回放
                        
                                一、时序差分学习（Temporal Difference Learning）强化学习中常用时序差分学习来更新模型，时序差分学习的一般流程是：

模型根据获取到的状态 $s_t$ 决定采取动作 $a_t$ 。
环境在执行动作 $a_t$ 后会
                            
                                2020-12-23
                            
                                    机器学习
                                
                            时序差分学习
                        
                            经验回放
                        
                            优先经验回放
                        
                            强化学习中时序差分学习
                        
                                在理解蒙特卡洛方法和时序差分学习一文中已经对时序差分学习进行了直观上的解释，本文中将具体的描述时序差分学习的数学推导过程及在强化学习中的应用。
一、时序差分学习的数学推导根据折扣回报（Discounted Return）的定义，有：
\be
                            
                                2020-12-19
                            
                                    机器学习
                                
                            时序差分学习
                        
                            Sarsa算法
                        
                            Q-Learning算法
                        
                            理解蒙特卡洛方法和时序差分学习
                        
                                学习机器学习时常常会用到蒙特卡洛方法和时序差分学习，所以对它们有一个直观的理解还是很重要的。本文通过举一个实际的例子来帮助理解。
假如要训练一个预估开车从成都到北京需要耗时多久的模型（Model），那么如何训练呢？

1. 蒙特卡洛方法
                            
                                2020-12-18
                            
                                    机器学习
                                
                            时序差分学习
                        
                            蒙特卡洛方法
                        
                            理解强化学习中的基本概念
                        
                                一、随机变量变量的值无法预先确定仅以一定的可能性（概率）取值的量。
强化学习中一般用大写的字母表示随机变量，用小写的字母表示随机变量的观测值（确定的值）。

比如：掷骰子中，用大写的变量 $X$ 表示可能掷出来骰子的值。假如掷一次骰子，得到
                            
                                2020-12-16
                            
                                    机器学习
                                
                            随机变量
                        
                            概率密度函数
                        
                            强化学习模型
                        
                            动作价值函数
                        
                            状态价值函数