结巴分词--词性标注

来源:互联网 发布:淘宝服务能退款吗 编辑:程序博客网 时间:2024/06/10 04:37

1、简介

词性(part-of-speech)是词汇基本的语法范畴,通常也称为词类,主要用来描述一个词在上下文的作用。例如,描述一个概念的词就是名词,在下文引用这个名词的词就是代词。有的词性经常会出现一些新的词,例如名词,这样的词性叫做开放式词性。另外一些词性中的词比较固定,例如代词,这样的词性叫做封闭式词性。因为存在一个词对应多个词性的现象,所以给词准确地标注词性并不是很容易。例如,“改革”在“中国开始对计划经济体制进行改革”这句话中是一个动词,但是在“医药卫生改革中的经济问题”这个句子中是一个名词。把这个问题抽象出来,就是已知单词序列,给每个单词标注词性。词性标注是自然语言处理中一项非常重要的基础性工作。

目前采用的词性标注方法主要有基于统计模型的标注方法基于规则的标注方法统计方法与规则方法相结合的方法基于有限状态转换机的标注方法基于神经网络的词性标注方法

jieba分词中提供了词性标注功能,可以标注标注句子分词后每个词的词性,词性标注集采用北大计算所词性标注集,属于采用基于统计模型的标注方法


2、Python实践

由于我要去除人名、地名、专有名词。这些名词在jieba分词里词性编码如下:

#nr 人名

#ns 地名

#nt 机构团体

#nz 其他专名

import jieba.posseg as psgtext = u"我和王非去北京大学玩"seg = psg.cut(text)print type(seg)for ele in seg:    if ele.flag == 'nr' or ele.flag == 'ns' or ele.flag == 'nt' or ele.flag == 'nz':        print ele.word, ele.flag


原创粉丝点击