Mapping and Cleaning Open Commonsense Knowledge Bases with Generative Translation

要約

構造化ナレッジ ベース (KB) は、多くの知識集約型アプリケーションのバックボーンであり、その自動構築は大きな注目を集めています。
特に、オープン情報抽出 (OpenIE) は、テキストから構造を導き出すためによく使用されます。
ただし、高い再現率が可能になりますが、抽出された知識はソースや OpenIE アルゴリズムからのノイズを継承する傾向があります。
さらに、OpenIE タプルには、オープンエンドで正規化されていない一連の関係が含まれているため、抽出された知識の下流での利用が困難になります。
このペーパーでは、特に常識的な知識の場合に、オープン KB を既存の KB の固定スキーマにマッピングする問題を研究します。
私たちは、生成的翻訳によって、つまり、オープンなものから固定スキーマのアサーションを生成するように言語モデルをトレーニングすることによって、この問題にアプローチすることを提案します。
実験によると、このアプローチは、従来の手動、ルールベース、または分類ベースの正規化と、COMET のような純粋に生成的な KB 構築との間のスイートスポットを占めています。
さらに、後者の関連付けベースのノイズを回避しながら、前者よりも高いマッピング精度を生成します。

要約(オリジナル)

Structured knowledge bases (KBs) are the backbone of many know\-ledge-intensive applications, and their automated construction has received considerable attention. In particular, open information extraction (OpenIE) is often used to induce structure from a text. However, although it allows high recall, the extracted knowledge tends to inherit noise from the sources and the OpenIE algorithm. Besides, OpenIE tuples contain an open-ended, non-canonicalized set of relations, making the extracted knowledge’s downstream exploitation harder. In this paper, we study the problem of mapping an open KB into the fixed schema of an existing KB, specifically for the case of commonsense knowledge. We propose approaching the problem by generative translation, i.e., by training a language model to generate fixed-schema assertions from open ones. Experiments show that this approach occupies a sweet spot between traditional manual, rule-based, or classification-based canonicalization and purely generative KB construction like COMET. Moreover, it produces higher mapping accuracy than the former while avoiding the association-based noise of the latter.

arxiv情報

著者 Julien Romero,Simon Razniewski
発行日 2023-06-22 09:42:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク