Hybrid-SQuAD: Hybrid Scholarly Question Answering Dataset

要約

既存の学術質問応答 (QA) 手法は通常、同種のデータ ソースを対象とし、テキストまたはナレッジ グラフ (KG) のみに依存します。
ただし、学術情報は異種ソースにまたがることが多く、複数の異種データ ソースからの情報を統合する QA システムの開発が必要です。
この課題に対処するために、テキストと KG 事実の両方を組み込んだ質問への回答を容易にするように設計された、新しい大規模な QA データセットである Hybrid-SQuAD (ハイブリッド学術質問回答データセット) を紹介します。
このデータセットは、KG DBLP と SemOpenAlex を利用した大規模な言語モデルによって生成された 10.5K の質問と回答のペアと、Wikipedia の対応するテキストで構成されています。
さらに、RAG ベースのベースライン ハイブリッド QA モデルを提案し、Hybrid-SQuAD テスト セットで 69.65 の完全一致スコアを達成しました。

要約(オリジナル)

Existing Scholarly Question Answering (QA) methods typically target homogeneous data sources, relying solely on either text or Knowledge Graphs (KGs). However, scholarly information often spans heterogeneous sources, necessitating the development of QA systems that integrate information from multiple heterogeneous data sources. To address this challenge, we introduce Hybrid-SQuAD (Hybrid Scholarly Question Answering Dataset), a novel large-scale QA dataset designed to facilitate answering questions incorporating both text and KG facts. The dataset consists of 10.5K question-answer pairs generated by a large language model, leveraging the KGs DBLP and SemOpenAlex alongside corresponding text from Wikipedia. In addition, we propose a RAG-based baseline hybrid QA model, achieving an exact match score of 69.65 on the Hybrid-SQuAD test set.

arxiv情報

著者 Tilahun Abedissa Taffa,Debayan Banerjee,Yaregal Assabie,Ricardo Usbeck
発行日 2024-12-05 10:30:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク