关于 youBBS 的 golang 结巴分词接口
结巴分词是目前比较好的中文分词库,有几个比较好的 golang 实现。下面做一下比较分析
-
jiebago https://github.com/wangbin/jiebago
纯go,很久没更新,项目不够成熟 -
gojieba https://github.com/yanyiwu/gojieba
cgo,核心算法底层由C++实现,项目比较成熟稳定,性能最好,但不支持跨平台编译,如果嫌切换开发环境和编译环境麻烦就推荐用下面的库 -
gse https://github.com/go-ego/gse
纯go,用结巴词库,新兴的项目,最近还比较活跃,值得关注。
考虑到性能、轻便问题,没有把分词系统放到 goYouBBS 公共项目,官方使用 gojieba 作分词服务。
使用分词功能最耗资源的是内存(相对于小VPS),载入词库后内存暴涨。比如 goYouBBS 使用 gojieba ,载入一个 9MB 的词库,占用 240MB 内存,而不用分词,只用 10MB 。
原来使用新浪 SAE 分词接口,有些不理想:
http 协议容易被监听
词库好像很久没更新
不支持繁体字分词
为了改善上面的不足,把推荐分词接口改为
https://www.youbbs.org/api/fenci
0
其实 新浪的分词支持https的~
@waiducom https 另收费😫
@youbbs 为什么 我现在线上使用 没有收费呢?
@waiducom 我信息滞后了😂