要約
文献レビューは、文献の収集、整理、要約という複雑なプロセスを伴う学術論文の重要な形式です。
大規模言語モデル (LLM) の出現により、これらのプロセスを自動化する有望なツールが導入されました。
しかし、正確で信頼できる参考文献を生成できるかどうかなど、包括的な文献レビューを執筆する際の実際の能力はまだ十分に解明されていません。
このギャップに対処するために、LLM の文献レビュー執筆能力を自動的に評価するフレームワークを提案します。
私たちは、参考文献の生成、要約の作成、文献レビューの作成という 3 つのタスクにわたって LLM のパフォーマンスを評価します。
当社では、参考文献の幻覚率、意味論的範囲、人間が書いた文脈との事実の一貫性の評価など、多次元の評価に外部ツールを採用しています。
実験結果を分析すると、進歩にもかかわらず、最も洗練されたモデルでも依然として幻覚参照の生成を避けることができないことがわかります。
さらに、さまざまな分野にわたる文献レビューの執筆において、さまざまなモデルがさまざまなパフォーマンスを示します。
要約(オリジナル)
The literature review is a crucial form of academic writing that involves complex processes of literature collection, organization, and summarization. The emergence of large language models (LLMs) has introduced promising tools to automate these processes. However, their actual capabilities in writing comprehensive literature reviews remain underexplored, such as whether they can generate accurate and reliable references. To address this gap, we propose a framework to assess the literature review writing ability of LLMs automatically. We evaluate the performance of LLMs across three tasks: generating references, writing abstracts, and writing literature reviews. We employ external tools for a multidimensional evaluation, which includes assessing hallucination rates in references, semantic coverage, and factual consistency with human-written context. By analyzing the experimental results, we find that, despite advancements, even the most sophisticated models still cannot avoid generating hallucinated references. Additionally, different models exhibit varying performance in literature review writing across different disciplines.
arxiv情報
著者 | Xuemei Tang,Xufeng Duan,Zhenguang G. Cai |
発行日 | 2025-01-14 14:16:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google