BertNet: Harvesting Knowledge Graphs with Arbitrary Relations from Pretrained Language Models

要約

知識発見や幅広い応用を支援するために、多様な新しい関係からなる知識グラフ(KG)を自動的に構築することは極めて重要である。クラウドソーシングやテキストマイニングに基づくこれまでの知識グラフ構築手法は、手作業によるコストやテキストコーパスの制限から、あらかじめ定義された小さな関係セットに限定されることが多い。最近の研究では、事前に学習させた言語モデル(LM)を暗黙の知識ベースとして使用し、プロンプトによる知識の問い合わせを受け付けることが提案されています。しかし、この暗黙知は、アクセス、ナビゲーション、編集、品質保証など、本格的なシンボリックKGの望ましい特性の多くを欠いている。本論文では、事前学習されたLMから任意の関係の巨大なKGを採取する新しいアプローチを提案する。本アプローチは、関係定義の最小限の入力(プロンプトと数ショットのエンティティペア例)だけで、膨大なエンティティペア空間を効率的に検索し、目的の関係の多様で正確な知識を抽出する。また、効率と精度を向上させるために、効果的なサーチアンドレスコア機構を開発する。我々は、このアプローチを用いて、異なるLMから400以上の新しい関係のKGを抽出した。人間による評価と自動評価により、我々のアプローチは、複雑な関係のタプル(例えば、「AはBの能力があるが得意ではない」)を含む、多様な正確な知識を抽出することができることが示された。また、LMの記号的解釈として得られたKGは、LMの知識能力に関する新たな洞察を示している。

要約(オリジナル)

It is crucial to automatically construct knowledge graphs (KGs) of diverse new relations to support knowledge discovery and broad applications. Previous KG construction methods, based on either crowdsourcing or text mining, are often limited to a small predefined set of relations due to manual cost or restrictions in text corpus. Recent research proposed to use pretrained language models (LMs) as implicit knowledge bases that accept knowledge queries with prompts. Yet, the implicit knowledge lacks many desirable properties of a full-scale symbolic KG, such as easy access, navigation, editing, and quality assurance. In this paper, we propose a new approach of harvesting massive KGs of arbitrary relations from pretrained LMs. With minimal input of a relation definition (a prompt and a few shot of example entity pairs), the approach efficiently searches in the vast entity pair space to extract diverse accurate knowledge of the desired relation. We develop an effective search-and-rescore mechanism for improved efficiency and accuracy. We deploy the approach to harvest KGs of over 400 new relations from different LMs. Extensive human and automatic evaluations show our approach manages to extract diverse accurate knowledge, including tuples of complex relations (e.g., ‘A is capable of but not good at B’). The resulting KGs as a symbolic interpretation of the source LMs also reveal new insights into the LMs’ knowledge capacities.

arxiv情報

著者 Shibo Hao,Bowen Tan,Kaiwen Tang,Bin Ni,Xiyan Shao,Hengzhe Zhang,Eric P. Xing,Zhiting Hu
発行日 2023-06-02 17:54:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク