Contri(e)ve: Context + Retrieve for Scholarly Question Answering

要約

学術コミュニケーションは、豊富な知識を含む急速に成長している分野です。
ただし、構造化されていないドキュメント形式のため、従来のドキュメント検索方法ではそこから有用な情報を抽出することが困難です。
学術ナレッジ グラフは、ドキュメントをセマンティック ネットワークで表現し、隠された洞察、要約、クエリによるアクセスの容易さを提供することで、この問題を解決します。
当然のことながら、学術グラフの質問応答により、より幅広い聴衆がアクセスできるようになります。
しかし、この分野の知識の一部は依然として非構造化テキストとして表示されるため、質問応答システムにはハイブリッド ソリューションが必要です。
このペーパーでは、オープンソースのラージ言語モデル (LLM)、つまり Scholarly-QALD データセット用の Llama3.1 を使用した 2 段階のソリューションを紹介します。
まず、さまざまな構造化および非構造化データ ソース (DBLP、SemOpenAlex ナレッジ グラフ、Wikipedia テキスト) から質問に関連するコンテキストを抽出します。
次に、LLM の情報検索パフォーマンスを向上させるための迅速なエンジニアリングを実装します。
私たちのアプローチは 40% の F1 スコアを達成し、LLM からのいくつかの異常な応答も観察されました。これについては、論文の最後の部分で説明します。

要約(オリジナル)

Scholarly communication is a rapid growing field containing a wealth of knowledge. However, due to its unstructured and document format, it is challenging to extract useful information from them through conventional document retrieval methods. Scholarly knowledge graphs solve this problem, by representing the documents in a semantic network, providing, hidden insights, summaries and ease of accessibility through queries. Naturally, question answering for scholarly graphs expands the accessibility to a wider audience. But some of the knowledge in this domain is still presented as unstructured text, thus requiring a hybrid solution for question answering systems. In this paper, we present a two step solution using open source Large Language Model(LLM): Llama3.1 for Scholarly-QALD dataset. Firstly, we extract the context pertaining to the question from different structured and unstructured data sources: DBLP, SemOpenAlex knowledge graphs and Wikipedia text. Secondly, we implement prompt engineering to improve the information retrieval performance of the LLM. Our approach achieved an F1 score of 40% and also observed some anomalous responses from the LLM, that are discussed in the final part of the paper.

arxiv情報

著者 Kanchan Shivashankar,Nadine Steinmetz
発行日 2024-09-13 17:38:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR パーマリンク