coreseek增加自定义中文分词
来源:互联网 发布:mysql大小写敏感开关 编辑:程序博客网 时间:2024/06/11 00:44
由于公司的项目采用的是繁体字、导致简体分词会有问题,于是百度了一下添加字典的方法,照着做确实可以,而且也不难。
下面是方法:
使用
词典的构造
mmseg -u unigram.txt
该命令执行后,将会在unigram.txt所在目录中产生一个名为unigram.txt.uni的文件,
将该文件改名为uni.lib,完成词典的构造。
需要注意的是,unigram.txt需要预先准备,并且编码格式必须为UTF-8编码。
词典文件格式:
....
河 187
x:187
造假者 1
x:1
台北队 1
x:1
湖边 1
......
其中,每条记录分两行。其中,第一行为词项,其格式为:[词条]\t[词频率]。需要注意的是,对于单个字后面跟这个字作单字成词的频率,这个频率需要在大量的预先切分好的语料库中进行统计,用户增加或删除词时,一般不需要修改这个数值;对于非单字词,词频率处必须为1。第二行为占位项,是由于LibMMSeg库的代码是从Coreseek其他的分词算法库(N-gram模型)中改造而来的,在原来的应用中,第二行为该词在各种词性下的分布频率。LibMMSeg的用户只需要简单的在第二行处填"x:1"即可。
用户可以通过修改词典文件增加自己的自定义词,以提高分词法在某一具体领域的切分精度,系统默认的词典文件在源代码目录的data/unigram.txt中。
- coreseek增加自定义中文分词
- coreseek 中文分词+精准 应用
- coreseek中LibMMsg中文分词
- coreseek+mmseg实现中文分词
- coreseek中LibMMsg中文分词
- coreseek 中文分词 and sphinx
- Coreseek中自定义mmseg分词
- Coreseek自定义中文词库
- Coreseek自定义中文词库
- coreseek中文分词与搜索的安装
- Coreseek+Mmseg 中文分词词汇长度修改
- coreseek中文分词搜索 简易配置
- sphinx与中文分词coreseek(window)
- Sphinx + Coreseek 实现中文分词搜索
- coreseek分词
- Ubuntu 12.04下安装中文分词搜索Coreseek
- sphinx的安装配置和中文分词包coreseek
- sphinx的安装配置和中文分词包coreseek
- 外键消除表连接
- myeclipse6.6+maven跑springside4.1的demo
- linux设备驱动开发详解--第八章 Linux 设备驱动中的阻塞与非阻塞 I/O
- eclipse 配置maven web项目
- windows svn(TortoiseSVN)命令操作
- coreseek增加自定义中文分词
- Important !! Clustering Factor Calculation Improvement
- Ext做的第一个小东西登陆框(引入的css文件与本来页面的css文件冲突了,搞了半天才搞定)
- Apache HttpClient4.2.5 模拟post、登录并访问验证授权数据
- android关于AndroidManifest.xml详细分析 清单文件解析
- JqGrid各种参数详解
- AltiumDesigner中从PCB文件更新SCH文件元件标号--PCB自动标号
- 解决修复本地连接失败无法取消的问题
- 使用拦截器来拦截请求handlerInterceptor