LGAR: Zero-Shot LLM-Guided Neural Ranking for Abstract Screening in Systematic Literature Reviews

要約

科学文献は急速に成長しており、最先端を追跡するのが難しくなっています。
体系的な文献レビュー(SLR)は、トピックに関するすべての関連する論文を特定して評価することを目的としています。
一連の候補論文を取得した後、抽象スクリーニングフェーズは初期の関連性を決定します。
現在までに、大きな言語モデル(LLM)を使用した抽象スクリーニング方法は、バイナリ分類設定に焦点を当てています。
既存の質問応答(QA)ベースのランキングアプローチは、エラーの伝播に苦しんでいます。
LLMSは、SLRの包含および除外基準を評価するユニークな機会を提供しますが、既存のベンチマークはそれらを徹底的に提供しません。
これらの基準と57のSLRの研究質問を手動で抽出し、主に医療ドメインで、アプローチ間の原則的な比較を可能にします。
さらに、LLMベースの段階的関連性のスコアラーと密な再ランカーで構成されるゼロショットLLMガイド付き抽象ランカーであるLGARを提案します。
私たちの広範な実験は、LGAが平均平均精度で既存のQAベースの方法を5-10 ppで上回ることを示しています。
私たちのコードとデータは公開されています。

要約(オリジナル)

The scientific literature is growing rapidly, making it hard to keep track of the state-of-the-art. Systematic literature reviews (SLRs) aim to identify and evaluate all relevant papers on a topic. After retrieving a set of candidate papers, the abstract screening phase determines initial relevance. To date, abstract screening methods using large language models (LLMs) focus on binary classification settings; existing question answering (QA) based ranking approaches suffer from error propagation. LLMs offer a unique opportunity to evaluate the SLR’s inclusion and exclusion criteria, yet, existing benchmarks do not provide them exhaustively. We manually extract these criteria as well as research questions for 57 SLRs, mostly in the medical domain, enabling principled comparisons between approaches. Moreover, we propose LGAR, a zero-shot LLM Guided Abstract Ranker composed of an LLM based graded relevance scorer and a dense re-ranker. Our extensive experiments show that LGAR outperforms existing QA-based methods by 5-10 pp. in mean average precision. Our code and data is publicly available.

arxiv情報

著者 Christian Jaumann,Andreas Wiedholz,Annemarie Friedrich
発行日 2025-05-30 16:18:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク