哈工大《大词林》开放75万中文知识库
相比于传统的开放域实体知识库,《大词林》的特点在于:
- 构建过程不需要领域专家的参与,而是基于多信息源自动获取实体类别并对可能的多个类别进行层次化,从而达到知识库自动构建的效果。
- 其数据规模可以随着互联网中实体词的更新而扩大,很好地解决了以往的人工构建知识库对开放域实体的覆盖程度极为有限的问题。
- 《大词林》是一个树状的网络,每一个实体的义项均能够唯一对应到细粒度的上位词概念路径且具有丰富的实体和关系数据,能够更加清晰明确的展示实体的含义。
用途
这75万核心实体列表涵盖了常见的人名、地名、物品名等术语。概念词列表则包含了细粒度的实体概念信息。借助于细粒度的上位概念层次结构和丰富的实体间关系,本次开源的数据能够为人机对话、智能推荐、等应用技术提供数据支持。
demo http://101.200.120.155/browser/
下载
https://pan.baidu.com/s/1NG8xybrEGTVYPepMM12xNw 提取码:mwmj
开源实体的抽样分布情况
数据格式
- 实体词表, entity.txt
- 实体名1
- 实体名2
- 概念词表, concept.txt
- 概念词1
- 概念词2
- 实体-概念词表, hyper.txt
- 实体名1,上位词1
- 实体名2,上位词2
- 实体三元组表, triple.txt
- 实体名1,关系名1,实体名1
- 实体名2,关系名2,实体名2
0
See Also
- Debian 安装 wkhtmltopdf 及中文乱码解决记
- python cookbook 中文在线版
- github 开放私人代码,可免费建立
- 百度BAE正式开放支持Java和Python
- 大家用这个程序别开放上传 昨天我的服务器被黑了!
Nearby
- 上一篇 › 修改了静态资源连接无效
- 下一篇 › 今天Bing的背景图