UNIQORN: Unified Question Answering over RDF Knowledge Graphs and Natural Language Text

要約

ナレッジ グラフやその他の RDF データに対する質問応答は大幅に進歩しており、自然言語の質問や電信クエリに対して明確な回答を提供する優れたシステムが数多くあります。
これらのシステムの中には、回答プロセスの追加の証拠としてテキスト ソースを組み込むものがありますが、テキストだけで存在する回答を計算することはできません。
逆に、IR および NLP コミュニティのシステムは、テキストを介して QA に対処していますが、そのようなシステムはセマンティック データと知識をほとんど利用していません。
このホワイト ペーパーでは、統合されたフレームワークで、RDF データセットとテキスト コーパス、または個々のソースの混合物に対してシームレスに動作できる、複雑な質問のための最初のシステムを紹介します。
UNIQORN と呼ばれる私たちの方法は、微調整された BERT モデルを使用して、RDF データおよび/またはテキスト コーパスから質問関連の証拠を取得することにより、オンザフライでコンテキスト グラフを構築します。
結果のグラフは通常リッチですが、非常にノイズが多くなります。
UNIQORN は、グループ シュタイナー ツリーのグラフ アルゴリズムによってこの入力に対処し、コンテキスト グラフで最良の回答候補を特定します。
複数のエンティティと関係を持つ複雑な質問のいくつかのベンチマークに関する実験結果は、\uniqorn が異種ソースよりも QA の最先端の方法よりも大幅に優れていることを示しています。
グラフベースの方法論は、完全な回答プロセスについてユーザーが解釈できる証拠を提供します。

要約(オリジナル)

Question answering over knowledge graphs and other RDF data has been greatly advanced, with a number of good systems providing crisp answers for natural language questions or telegraphic queries. Some of these systems incorporate textual sources as additional evidence for the answering process, but cannot compute answers that are present in text alone. Conversely, systems from the IR and NLP communities have addressed QA over text, but such systems barely utilize semantic data and knowledge. This paper presents the first system for complex questions that can seamlessly operate over a mixture of RDF datasets and text corpora, or individual sources, in a unified framework. Our method, called UNIQORN, builds a context graph on-the-fly, by retrieving question-relevant evidences from the RDF data and/or a text corpus, using fine-tuned BERT models. The resulting graph is typically rich but highly noisy. UNIQORN copes with this input by a graph algorithm for Group Steiner Trees, that identifies the best answer candidates in the context graph. Experimental results on several benchmarks of complex questions with multiple entities and relations, show that \uniqorn significantly outperforms state-of-the-art methods for QA over heterogeneous sources. The graph-based methodology provides user-interpretable evidence for the complete answering process.

arxiv情報

著者 Soumajit Pramanik,Jesujoba Alabi,Rishiraj Saha Roy,Gerhard Weikum
発行日 2023-03-16 15:15:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク