python结巴分词
来源:互联网 发布:中国贫富差距 知乎 编辑:程序博客网 时间:2024/06/10 04:13
http://www.cnblogs.com/kaituorensheng/p/3595879.html
python中文分词:结巴分词
中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点:
- 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)
- 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
- 对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法
安装(Linux环境)
下载工具包,解压后进入目录下,运行:python setup.py install
模式
- 默认模式,试图将句子最精确地切开,适合文本分析
- 全模式,把句子中所有的可以成词的词语都扫描出来,适合搜索引擎
接口
- 组件只提供jieba.cut 方法用于分词
- cut方法接受两个输入参数:
- 第一个参数为需要分词的字符串
- cut_all参数用来控制分词模式
- 待分词的字符串可以是gbk字符串、utf-8字符串或者unicode
- jieba.cut返回的结构是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语(unicode),也可以用list(jieba.cut(...))转化为list
实例
#! -*- coding:utf-8 -*-import jiebaseg_list = jieba.cut("我来到北京清华大学", cut_all = True)print "Full Mode:", ' '.join(seg_list)seg_list = jieba.cut("我来到北京清华大学")print "Default Mode:", ' '.join(seg_list)
结果
实现原理
0 0
- python结巴分词
- python 结巴分词
- Python--结巴分词
- python结巴分词
- Python---结巴分词介绍
- python中文分词:结巴分词
- python 结巴分词(jieba)学习
- python 结巴分词(jieba)学习
- python 结巴分词(jieba)学习
- python 结巴分词(jieba)学习
- python 结巴分词(jieba)学习
- python 结巴分词(jieba)学习
- python 结巴分词(jieba)学习
- Python中的结巴分词初探
- python 结巴分词(jieba)学习
- python 结巴分词(jieba)学习
- 结巴分词快速入门Python
- 7. Python 结巴中文分词
- 智能硬件
- Tutorials
- 【Android开发经验】兼容不同的屏幕大小(推荐,最官方的适应屏幕大小的经验)
- POJ 3278 Catch That Cow (BFS)
- UIKit基础:5.UIView的概念普及以及Xcode的知识补充
- python结巴分词
- 华为编程题之三:最具夫妻像
- dll的调用
- Android酷炫实用的开源框架(UI框架)
- arcgis for flex展示GIS基本功能
- 教你如何用proxyhunter找大学代理:屡试不爽
- 第一篇
- 信息架构的理解和说明
- pppoe中的mtu与mss