coreseek增加自定义中文分词

来源：互联网发布：mysql大小写敏感开关编辑：程序博客网时间：2024/06/11 00:44

由于公司的项目采用的是繁体字、导致简体分词会有问题，于是百度了一下添加字典的方法，照着做确实可以，而且也不难。

下面是方法：

使用
词典的构造

mmseg -u unigram.txt

该命令执行后，将会在unigram.txt所在目录中产生一个名为unigram.txt.uni的文件，

将该文件改名为uni.lib，完成词典的构造。

需要注意的是，unigram.txt需要预先准备，并且编码格式必须为UTF-8编码。

词典文件格式：

....
河 187
x:187
造假者 1
x:1
台北队 1
x:1
湖边 1
......

其中，每条记录分两行。其中，第一行为词项，其格式为：[词条]\t[词频率]。需要注意的是，对于单个字后面跟这个字作单字成词的频率，这个频率需要在大量的预先切分好的语料库中进行统计，用户增加或删除词时，一般不需要修改这个数值；对于非单字词，词频率处必须为1。第二行为占位项，是由于LibMMSeg库的代码是从Coreseek其他的分词算法库（N-gram模型）中改造而来的，在原来的应用中，第二行为该词在各种词性下的分布频率。LibMMSeg的用户只需要简单的在第二行处填"x:1"即可。

用户可以通过修改词典文件增加自己的自定义词，以提高分词法在某一具体领域的切分精度，系统默认的词典文件在源代码目录的data/unigram.txt中。