Increasing Coverage and Precision of Textual Information in Multilingual Knowledge Graphs


自然言語処理とコンピューター ビジョンにおける最近の研究では、ナレッジ グラフで利用できるテキスト情報 (エンティティ名や説明など) を使用して、ニューラル モデルを高品質の構造化データに統合しています。
この問題に対処するために、私たちは自動ナレッジグラフ拡張 (KGE) という新しいタスクを導入し、英語と英語以外の言語の間のテキスト情報の量と質の両方におけるギャップを埋めるための徹底的な調査を実行します。
より具体的には、i) ウィキデータにおけるエンティティ名と説明の多言語対応範囲と精度を高めるという問題を明らかにします。
ii) 最先端の手法、つまり機械翻訳 (MT)、Web 検索 (WS)、および大規模言語モデル (LLM) がこのタスクに苦労していることを実証します。
iii) MT、WS、LLM を組み合わせて高品質のテキスト情報を生成する新しい教師なしアプローチである M-NTA を提示します。
iv) エンティティ リンク、ナレッジ グラフ補完、質問応答における英語以外のテキスト情報の多言語対応範囲と精度の向上の影響を研究する。
多言語ナレッジ グラフの改善に向けた取り組みの一環として、7 つの言語ファミリーにわたる 10 言語で KGE アプローチを評価するための、人間が厳選した初のベンチマークである WikiKGE-10 も導入しました。


Recent work in Natural Language Processing and Computer Vision has been using textual information — e.g., entity names and descriptions — available in knowledge graphs to ground neural models to high-quality structured data. However, when it comes to non-English languages, the quantity and quality of textual information are comparatively scarce. To address this issue, we introduce the novel task of automatic Knowledge Graph Enhancement (KGE) and perform a thorough investigation on bridging the gap in both the quantity and quality of textual information between English and non-English languages. More specifically, we: i) bring to light the problem of increasing multilingual coverage and precision of entity names and descriptions in Wikidata; ii) demonstrate that state-of-the-art methods, namely, Machine Translation (MT), Web Search (WS), and Large Language Models (LLMs), struggle with this task; iii) present M-NTA, a novel unsupervised approach that combines MT, WS, and LLMs to generate high-quality textual information; and, iv) study the impact of increasing multilingual coverage and precision of non-English textual information in Entity Linking, Knowledge Graph Completion, and Question Answering. As part of our effort towards better multilingual knowledge graphs, we also introduce WikiKGE-10, the first human-curated benchmark to evaluate KGE approaches in 10 languages across 7 language families.


著者 Simone Conia,Min Li,Daniel Lee,Umar Farooq Minhas,Ihab Ilyas,Yunyao Li
発行日 2023-11-27 12:54:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク