关于 youBBS 的 golang 结巴分词接口
By youbbs
at 2019-11-20 21:04 • 1401次点击
结巴分词是目前比较好的中文分词库,有几个比较好的 golang 实现。下面做一下比较分析
jiebago https://github.com/wangbin/jiebago 3 纯go,很久没更新,项目不够成熟
gojieba https://github.com/yanyiwu/gojieba 13 cgo,核心算法底层由C++实现,项目比较成熟稳定,性能最好,但不支持跨平台编译,如果嫌切换开发环境和编译环境麻烦就推荐用下面的库
gse https://github.com/go-ego/gse 16 纯go,用结巴词库,新兴的项目,最近还比较活跃,值得关注。
考虑到性能、轻便问题,没有把分词系统放到 goYouBBS 公共项目,官方使用 gojieba 作分词服务。
使用分词功能最耗资源的是内存(相对于小VPS),载入词库后内存暴涨。比如 goYouBBS 使用 gojieba ,载入一个 9MB 的词库,占用 240MB 内存,而不用分词,只用 10MB 。
原来使用新浪 SAE 分词接口,有些不理想:
http 协议容易被监听 词库好像很久没更新 不支持繁体字分词
为了改善上面的不足,把推荐分词接口改为
https://www.youbbs.org/api/fenci
请 登录 后发表评论