什么是强化学习?强化学习的基本概念
强化学习是机器学习领域的一类学习问题,它与常见的有监督学习、无监督学习等的最大不同之处在于,它是通过与环境之间的交互和反馈来学习的。正如一个新生的婴儿一样,它通过哭闹、吮吸、爬走等来对环境进行探索,并且慢慢地积累起对于环境的感知,从而一步步学习到环境的特性使得自己的行动能够尽快达成自己的愿望。再比如,这也同我们学习下围棋的模式类似,我们通过和不同的对手一盘一盘得对弈,慢慢积累起来我们对于每一步落子的判断,从而慢慢地提高自身的围棋水平。由DeepMind研发的AlphaGo围棋程序在训练学习的过程中就用到了强化学习的技术。
下面让我们来正式地定义一下强化学习问题。强化学习的基本模型就是个体-环境的交互。个体/智能体(agent)就是能够采取一系列行动并且期望获得较高收益或者达到某一目标的部分,比如我们前面例子中的新生婴儿或者在学习下围棋的玩家。而与此相关的另外的部分我们都统一称作环境(environment),比如前面例子中的婴儿的环境(比如包括其周围的房间以及婴儿的父母等)或者是你面前的棋盘以及对手。整个过程将其离散化为不同的时刻(time step)。在每个时刻环境和个体都会产生相应的交互。个体可以采取一定的行动(action),这样的行动是施加在环境中的。环境在接受到个体的行动之后,会反馈给个体环境目前的状态(state)以及由于上一个行动而产生的奖励(reward)。其中值得注意的一点是,这样个体-环境的划分并不一定是按照实体的临近关系划分,比如在动物行为学上上,动物获得的奖励其实可能来自于其自身大脑中的化学物质的分泌,因此这时动物大脑中实现这一奖励机制的部分,也应该被划分为环境;而个体就仅仅只包括接受信号并且做出决定的部分。