Large Language Models for Automated Literature Review: An Evaluation of Reference Generation, Abstract Writing, and Review Composition

要約

大規模な言語モデル(LLM)は、文献収集、組織、要約などの文献レビューを書くことに関与する複雑なプロセスを自動化する潜在的なソリューションとして浮上しています。
ただし、LLMが包括的で信頼できる文献レビューの自動化にどれほど優れているかはまだ不明です。
この研究では、参照生成、文献の要約、文献レビュー構成という3つの重要な文献執筆タスクでLLMSのパフォーマンスを自動的に評価するフレームワークを紹介します。
生成された参照の幻覚率を評価する多次元評価メトリックを導入し、人間が書いた対応物に対する文献の要約と構成のセマンティックカバレッジと事実の一貫性を測定します。
実験結果は、最近の進歩にもかかわらず、最も先進的なモデルでさえも幻覚的な参照を生成することが明らかになりました。
さらに、文献のレビューを書くことに関しては、異なるモデルのパフォーマンスが分野間で異なることを観察します。
これらの調査結果は、学術文献レビューの自動化におけるLLMの信頼性を改善するためのさらなる研究開発の必要性を強調しています。

要約(オリジナル)

Large language models (LLMs) have emerged as a potential solution to automate the complex processes involved in writing literature reviews, such as literature collection, organization, and summarization. However, it is yet unclear how good LLMs are at automating comprehensive and reliable literature reviews. This study introduces a framework to automatically evaluate the performance of LLMs in three key tasks of literature writing: reference generation, literature summary, and literature review composition. We introduce multidimensional evaluation metrics that assess the hallucination rates in generated references and measure the semantic coverage and factual consistency of the literature summaries and compositions against human-written counterparts. The experimental results reveal that even the most advanced models still generate hallucinated references, despite recent progress. Moreover, we observe that the performance of different models varies across disciplines when it comes to writing literature reviews. These findings highlight the need for further research and development to improve the reliability of LLMs in automating academic literature reviews.

arxiv情報

著者 Xuemei Tang,Xufeng Duan,Zhenguang G. Cai
発行日 2025-04-23 07:09:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク