在理解蒙特卡洛方法和时序差分学习一文中已经对时序差分学习进行了直观上的解释,本文中将具体的描述时序差分学习的数学推导过程及在强化学习中的应用。
一、时序差分学习的数学推导根据折扣回报(Discounted Return)的定义,有:
\be
2020-12-19