关于DQN一些小想法

来源：互联网发布：溆浦网络花店编辑：程序博客网时间：2024/06/02 19:29

基于目前对RL这方面的了解，主要分为基于三个方面: value function， policy 以及 model

其中目前最广泛的为value function的思路，也就是所谓的q-learning，Deep Q Network 与深度神经网络的结合。

目前主要看了两篇DQN 在NLP 和Object Detection方面的两篇应用的文章深有感触

1. Improving Information Extraction by Acquiring External Evidence with Reinforcement Learning

2. Active Object Localization with Deep Reinforcement Learning

我的思考是，DNQ中每一条记录(s,a,r,s') 其实包含三个方面:

1. 如何定义state

2. 如何确定actions的范围

3. 如何定义reward的规则

例如在论文1中，例如rl去学习如何更好地从文章中的精确地提取entity的信息，其中最重要地是学习去提取和当前事件相同的其他表达方式。

1. state的定义: 也就是DQN的输入，在论文中论文的state由几个方面组成，包括当前entity的置信度，和扩充选择的entity的置信度，他们的matches以及content word的tf-idf。

2. action的定义：论文中有两种actions 也就有两个networks。每个actions的选择范围是固定的。文中的两个actions：reconcile和 new entity selection（query），其中reconcile定义为只有四种，接受某个，接受所有，拒绝全部以及停止。 query则是利用其他方式定义好的k（常数）个模板。

3. reward的定义：计算一个文章中所有entity的acc（当前）-acc（之前），没有采用绝对值，所有这里存在着惩罚机制。

同样地，论文2也是巧妙地定义了这个方面。

目前，我还没有看过rl在语音识别方面应用的paper，如果您看过比较好的，可以给我推荐一下嘛。

之前尝试过让rl自动去学习语音识别的对齐问题，感觉如何定义action和reward，尤其是reward function存在着困难。目前对CTC这个概率思想理解地不是很深入，有待努力。

0 0