nltk英文词性分析
来源:互联网 发布:java web小项目 编辑:程序博客网 时间:2024/06/11 06:27
Python 的nltk完成英文词性分析
首先需要安装nltk,大致的安装过程是:
sudo apt-get install python-nltk
需要依赖的包可以自行查阅
安装完后比较重要的一步是下载数据
>>import nltk
>>nltk.download()
如果出现 Connection reset error ,则是因为网络问题,换一下网就可以了。
本文主要对歌曲的评论列表分完词之后的数据进行词性分析。数据输入格式为 :
id \t word \t word ......
下面是词性分析的过程:
#!/usr/bin/env python# -*- coding: utf-8 -*-import sysimport jsonimport reimport stringimport nltkreload(sys)sys.setdefaultencoding("utf8")pos= ['NN','NNS','JJ']#只选择名词和形容词def main(): if len(sys.argv) < 1: sys.stderr.write("err\n") return -1 while True: ln = sys.stdin.readline() if not ln: break ln = ln.strip() ln_u = ln.decode("utf8") items = ln_u.split("\t") #print len(items) # if comment is empty, strip the row songid = items[0] commentList = items[1:] pos_result = nltk.pos_tag(commentList) # the output form is tuple print (songid +'\t').encode('utf8'), for tuple in pos_result: word = tuple[0] pos_word = tuple[1] #if pos_word in pos: # print (str(word)+'\t'+str(pos_word)).encode('utf8'), print (word+' '+pos_word+'\t'), #output overall word and its pos_word printif __name__ =='__main__': main()
运行 python pos.py < inputfile >outfile 即可得到词性分析的结果。可以根据不同项目的需要,选择保留的词性。
0 0
- nltk英文词性分析
- nltk词性标注英文简称及分类
- nltk词性
- NLTK的词性
- NLTK词性tag含义
- NLTK的词性[转]
- NLTK中文词性自动标注
- python进行词性分析
- python nltk 统计语料的词性标注分布
- NLTK的安装/对象/词库/分词/词性标注/分块
- NLTK 词频统计(一) 词频统计,绘图,词性标注
- NLTK学习之二:建构词性标注器
- 简单感知器实现英文词性标注
- 马尔科夫的词性分析三部曲
- NLTK进行英文分句和分词
- 词性
- win10下使用nltk的brown的词性tag包报错以及处理方法安装nltk相应包的操作办法
- 文本分析--NLTK自然语言处理
- backtrack5R3之基础网络常见命令
- 传递闭包
- 【多重背包】HDU1059Dividing
- 关于“吴亦凡入伍”H5的背后的技术(前端篇)
- Android 反编译apk
- nltk英文词性分析
- Android 的EditText控件学习
- Android知识点3-通过照相或相册更改图片
- 空格替换
- 1001. 害死人不偿命的(3n+1)猜想 (15)
- python的全局变量和局部变量
- java接口与抽象类的区别总结
- Uva-816 - Abbott's Revenge
- MyBatis批量操作报错:Parameter 'xxxList' not found. Available parameters are [list]