CNNSum: Exploring Long-Context Summarization with Large Language Models in Chinese Novels

要約

大規模な言語モデル(LLMS)は、さまざまな長期のタスクでよく研究されています。
ただし、長いコンテキストの要約データセットの希少性は、この分野の進歩を妨げます。
これに対処するために、中国の小説に基づいたマルチスケールの長いコンテキスト要約ベンチマークであるCNNSUMを紹介します。これは、合計695サンプルの4つのサブセットにわたって人間主導の注釈が特徴で、長さは16Kから128Kの範囲です。
多数のLLMをベンチマークし、異常な出力タイプを要約するために詳細な人間の評価を実施します。
さらに、長いコンテキストの要約を改善する方法を広範囲に探求します。
私たちの研究では、(1)高度なLLMが多くの主観的な解説を生成し、あいまいな要約につながる可能性があります。
(2)現在、長いコンテキストの要約は、主にメモリ能力に依存しています。
大規模なLLMの利点は利用が困難であるため、小さなLLMSはより費用対効果が高くなります。
(3)さまざまなバージョンモデルと組み合わせたさまざまなプロンプトタイプは、パフォーマンスのギャップが大きい場合があります。
さらに微調整すると、これらは軽減でき、ベースバージョンモデルのパフォーマンスが向上します。
(4)ロープベースのスケーリングされたLLMSは、強力な外挿ポテンシャルを示します。
ショートコンテキストデータを使用すると、長いコンテキストの要約パフォーマンスが大幅に向上する可能性があります。
ただし、他の補間方法をさらに適用するには、慎重に選択する必要があります。
(5)CNNSUMは、他のベンチマークよりも信頼性の高い評価結果を提供します。
将来の研究を進めるためにcnnsumをリリースします。(https://github.com/cxsghost/cnnsum)

要約(オリジナル)

Large language models (LLMs) have been well-researched in various long-context tasks. However, the scarcity of long-context summarization datasets hinders progress in this area. To address this, we introduce CNNSum, a multi-scale long-context summarization benchmark based on Chinese novels, featuring human-driven annotations across four subsets totaling 695 samples, with lengths ranging from 16k to 128k. We benchmark numerous LLMs and conduct detailed human assessments to summarize abnormal output types. Furthermore, we extensively explore how to improve long-context summarization. In our study: (1) Advanced LLMs may generate much subjective commentary, leading to vague summaries. (2) Currently, long-context summarization mainly relies on memory ability. The advantages of Large LLMs are hard to utilize, thus small LLMs are more cost-effective. (3) Different prompt types paired with various version models may cause large performance gaps. In further fine-tuning, these can be mitigated, and the Base version models perform better. (4) LLMs with RoPE-base scaled exhibit strong extrapolation potential; using short-context data can significantly improve long-context summarization performance. However, further applying other interpolation methods requires careful selection. (5) CNNSum provides more reliable evaluation results than other benchmarks. We release CNNSum to advance future research.(https://github.com/CxsGhost/CNNSum)

arxiv情報

著者 Lingxiao Wei,He Yan,Xiangju Lu,Junmin Zhu,Jun Wang,Wei Zhang
発行日 2025-06-02 11:31:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク