要約
アカデミックライティングでは、首尾一貫したテキスト生成と関連文献の正確な引用の両方が求められる。最近のRAG(Retrieval-Augmented Generation)システムは、汎用的なテキスト生成における事実精度を大幅に向上させたが、専門的な学術論文をサポートする能力は依然として限定的である。この研究では、ScholarCopilotを紹介する。ScholarCopilotは、既存の大規模言語モデルを拡張し、正確で文脈に関連した引用を含む専門的な学術論文を生成するために設計された統一フレームワークである。ScholarCopilotは、検索トークン[RET]を生成することで、学術文献を検索するタイミングを動的に決定し、そのトークンを使用して引用データベースに問い合わせを行う。検索された文献は、生成プロセスを補強するためにモデルに入力されます。生成タスクと引用タスクの両方を単一のフレームワーク内で共同で最適化することで、効率を向上させている。我々のモデルはQwen-2.5-7Bをベースに構築され、arXivの50万件の論文で学習される。我々の評価データセットでは40.1%のトップ1検索精度を達成し、E5-Mistral-7B-Instruct(15.0%)やBM25(9.8%)などのベースラインを凌駕している。1,000のアカデミックライティングサンプルからなるデータセットにおいて、ScholarCopilotは、関連性、一貫性、学術的厳密性、完全性、革新性を測定したジェネレーションクオリティで16.2/25を獲得し、Retrieval-Augmented Qwen2.5-72B-Instructのような大規模なモデルを含む、既存のすべてのモデルを大幅に上回りました。さらに、人間による研究では、ScholarCopilotが7Bモデルであるにもかかわらず、ChatGPTを大幅に凌駕し、引用の質で100%、総合的な有用性で70%以上の嗜好性を達成していることが実証されています。
要約(オリジナル)
Academic writing requires both coherent text generation and precise citation of relevant literature. Although recent Retrieval-Augmented Generation (RAG) systems have significantly improved factual accuracy in general-purpose text generation, their ability to support professional academic writing remains limited. In this work, we introduce ScholarCopilot, a unified framework designed to enhance existing large language models for generating professional academic articles with accurate and contextually relevant citations. ScholarCopilot dynamically determines when to retrieve scholarly references by generating a retrieval token [RET], which is then used to query a citation database. The retrieved references are fed into the model to augment the generation process. We jointly optimize both the generation and citation tasks within a single framework to improve efficiency. Our model is built upon Qwen-2.5-7B and trained on 500K papers from arXiv. It achieves a top-1 retrieval accuracy of 40.1% on our evaluation dataset, outperforming baselines such as E5-Mistral-7B-Instruct (15.0%) and BM25 (9.8%). On a dataset of 1,000 academic writing samples, ScholarCopilot scores 16.2/25 in generation quality — measured across relevance, coherence, academic rigor, completeness, and innovation — significantly surpassing all existing models, including much larger ones like the Retrieval-Augmented Qwen2.5-72B-Instruct. Human studies further demonstrate that ScholarCopilot, despite being a 7B model, significantly outperforms ChatGPT, achieving 100% preference in citation quality and over 70% in overall usefulness.
arxiv情報
| 著者 | Yubo Wang,Xueguang Ma,Ping Nie,Huaye Zeng,Zhiheng Lyu,Yuxuan Zhang,Benjamin Schneider,Yi Lu,Xiang Yue,Wenhu Chen |
| 発行日 | 2025-04-03 15:07:29+00:00 |
| arxivサイト | arxiv_id(pdf) |