youbbs
youbbs
4702 0 0

哈工大《大词林》开放75万中文知识库

相比于传统的开放域实体知识库,《大词林》的特点在于:

  • 构建过程不需要领域专家的参与,而是基于多信息源自动获取实体类别并对可能的多个类别进行层次化,从而达到知识库自动构建的效果。
  • 其数据规模可以随着互联网中实体词的更新而扩大,很好地解决了以往的人工构建知识库对开放域实体的覆盖程度极为有限的问题。
  • 《大词林》是一个树状的网络,每一个实体的义项均能够唯一对应到细粒度的上位词概念路径且具有丰富的实体和关系数据,能够更加清晰明确的展示实体的含义。

用途

这75万核心实体列表涵盖了常见的人名、地名、物品名等术语。概念词列表则包含了细粒度的实体概念信息。借助于细粒度的上位概念层次结构和丰富的实体间关系,本次开源的数据能够为人机对话、智能推荐、等应用技术提供数据支持。

demo http://101.200.120.155/browser/

下载

https://pan.baidu.com/s/1NG8xybrEGTVYPepMM12xNw 提取码:mwmj


开源实体的抽样分布情况

数据格式

  • 实体词表, entity.txt
  • 实体名1
  • 实体名2
  • 概念词表, concept.txt
  • 概念词1
  • 概念词2
  • 实体-概念词表, hyper.txt
  • 实体名1,上位词1
  • 实体名2,上位词2
  • 实体三元组表, triple.txt
  • 实体名1,关系名1,实体名1
  • 实体名2,关系名2,实体名2
0

See Also

Nearby


Discussion

Login Topics