关于DQN一些小想法
来源:互联网 发布:溆浦网络花店 编辑:程序博客网 时间:2024/06/02 19:29
基于目前对RL这方面的了解,主要分为基于三个方面: value function, policy 以及 model
其中目前最广泛的为value function的思路,也就是所谓的q-learning,Deep Q Network 与深度神经网络的结合。
目前主要看了两篇DQN 在NLP 和Object Detection方面的两篇应用的文章深有感触
1. Improving Information Extraction by Acquiring External Evidence with Reinforcement Learning
2. Active Object Localization with Deep Reinforcement Learning
我的思考是,DNQ中每一条记录(s,a,r,s') 其实包含三个方面:
1. 如何定义state
2. 如何确定actions的范围
3. 如何定义reward的规则
例如在论文1中,例如rl去学习如何更好地从文章中的精确地提取entity的信息,其中最重要地是学习去提取和当前事件相同的其他表达方式。
1. state的定义: 也就是DQN的输入,在论文中论文的state由几个方面组成,包括当前entity的置信度,和扩充选择的entity的置信度,他们的matches以及content word的tf-idf。
2. action的定义:论文中有两种actions 也就有两个networks。 每个actions的选择范围是固定的。文中的两个actions:reconcile和 new entity selection(query),其中reconcile定义为只有四种,接受某个,接受所有,拒绝全部以及停止。 query则是利用其他方式定义好的k(常数)个模板。
3. reward的定义:计算一个文章中所有entity的acc(当前)-acc(之前),没有采用绝对值,所有这里存在着惩罚机制。
同样地,论文2也是巧妙地定义了这个方面。
目前,我还没有看过rl在语音识别方面应用的paper,如果您看过比较好的,可以给我推荐一下嘛。
之前尝试过让rl自动去学习语音识别的对齐问题,感觉如何定义action和reward,尤其是reward function存在着困难。目前对CTC这个概率思想理解地不是很深入,有待努力。
- 关于DQN一些小想法
- 关于小程序,一些想法
- 关于UFT的一些小想法
- 关于新手语言一些想法(本人也是小白)
- 关于C-COT的一些想法 by小白
- 一些想法:关于地图
- 关于MVVM一些想法
- 关于一些编程的想法
- 关于会议的一些想法
- 关于算法的一些想法
- 关于算法的一些想法
- 关于算法的一些想法
- 关于对象的一些想法~~~
- 关于算法的一些想法
- 关于算法的一些想法
- 关于算法的一些想法
- 关于算法的一些想法
- 关于网站的一些想法
- windows下localhost、127.0.0.1能访问控制台,IP不能访问控制台
- 修改、删除
- 拖动draggable
- opencv2140和vs2013配置
- spring中@Scheduled(cron="")定时任务时间设置
- 关于DQN一些小想法
- ExtJs中根据后台数据动态创建表格列及其数据
- java应用故障排查-高cpu利用率
- Spring定时任务 cronExpression 表达式生成器
- SAP SD模块操作流程
- mybatis实战教程(mybatis in action),mybatis入门到精通
- Android Studio 掌握这些调试技巧,Debug 能力不能再高啦
- iOS https
- 聚集索引和非聚集索引区别