结巴分词--词性标注
来源:互联网 发布:淘宝服务能退款吗 编辑:程序博客网 时间:2024/06/10 04:37
1、简介
词性(part-of-speech)是词汇基本的语法范畴,通常也称为词类,主要用来描述一个词在上下文的作用。例如,描述一个概念的词就是名词,在下文引用这个名词的词就是代词。有的词性经常会出现一些新的词,例如名词,这样的词性叫做开放式词性。另外一些词性中的词比较固定,例如代词,这样的词性叫做封闭式词性。因为存在一个词对应多个词性的现象,所以给词准确地标注词性并不是很容易。例如,“改革”在“中国开始对计划经济体制进行改革”这句话中是一个动词,但是在“医药卫生改革中的经济问题”这个句子中是一个名词。把这个问题抽象出来,就是已知单词序列,给每个单词标注词性。词性标注是自然语言处理中一项非常重要的基础性工作。
目前采用的词性标注方法主要有基于统计模型的标注方法、基于规则的标注方法、统计方法与规则方法相结合的方法、基于有限状态转换机的标注方法和基于神经网络的词性标注方法。
jieba分词中提供了词性标注功能,可以标注标注句子分词后每个词的词性,词性标注集采用北大计算所词性标注集,属于采用基于统计模型的标注方法。
2、Python实践
由于我要去除人名、地名、专有名词。这些名词在jieba分词里词性编码如下:
#nr 人名
#ns 地名
#nt 机构团体
#nz 其他专名
import jieba.posseg as psgtext = u"我和王非去北京大学玩"seg = psg.cut(text)print type(seg)for ele in seg: if ele.flag == 'nr' or ele.flag == 'ns' or ele.flag == 'nt' or ele.flag == 'nz': print ele.word, ele.flag
阅读全文
0 0
- 结巴分词--词性标注
- 结巴分词词性
- ictclas,ansj,结巴分词,StanfordNLP中文分词以及所用词性标注集
- jieba(结巴)分词种词性简介
- jieba(结巴)分词种词性简介
- jieba(结巴)分词种词性简介
- 分词:词性标注北大标准
- 中文分词与词性标注
- 分词:词性标注北大标准
- 分词:词性标注北大标准
- 分词:词性标注北大标准
- jieba分词词性标注含义
- python词法分析(分词+词性标注)
- 中科院分词调用代码,无词性标注
- 中英文分词及词性标注工具
- python的jieba分词词性标注
- 文本分词中词语词性标注说明
- jieba分词、关键词提取、词性标注
- 第十三章 整体部分
- 将整数A转换为B
- ss3常用动画+动画库
- 数据中心管理常见错误,犯一个就是致命的
- 游戏后台实记
- 结巴分词--词性标注
- oralce job 定时执行任务
- View.setActivited()方法
- css基础
- DM368开发 -- 毕设之硬件
- 浅谈2017棋牌游戏的前景 运营 推广(下) 转贴
- 自定义dialog的大小和位置
- MacOS Sierra 安装 爬虫Scrapy或虚拟环境扩展包virtualenvwrapper,报Uninstalling six-1.4.1的解决方法
- Codeforces New Year Candles