要約
大規模言語モデル (LLM) は、多くの長いコンテキストのタスクでよく研究されています。
ただし、アノテーションのコストが高いため、トレーニングまたは評価用の高品質で長いコンテキストの概要データセットが不足しており、さらなる研究が制限されています。
この研究では、新しいマルチスケールの中国語の長い文脈の小説要約ベンチマークである CNNSum を紹介します。これには 4 つのサブセットが含まれ、長さは 16k\textasciitilde128k をカバーし、合計 695 のサンプルがあり、注釈は人間主導です。
CNNSum 上の商用およびオープンソース モデルを評価し、詳細な分析を実施します。
観察に基づいて、短いコンテキストの概要データを使用してさらに微調整した探索を実行します。
私たちの研究では: (1) 過度の主観的なコメントにより、GPT-4o のパフォーマンスが低下しました。
(2) 現在、長いコンテキストの要約は主にメモリ能力に依存しており、安定した長いコンテキスト長を持つ小規模な LLM が最もコスト効率が高くなります。
短いコンテキストの概要を連結した長いデータを使用すると、大幅な改善が得られます。
(3) プロンプト テンプレートはパフォーマンスに大きなギャップを引き起こす可能性がありますが、微調整することで軽減できます。
(4) 微調整されたチャットまたは命令バージョンは基本モデルに悪影響を与える可能性があり、さらに微調整してもパフォーマンスのギャップを埋めることはできません。
(5) RoPE ベース スケーリングを備えたモデルは強力な外挿の可能性を示しますが、他の補間方法と組み合わせるとパフォーマンスが大幅に変わる可能性があるため、慎重に選択する必要があります。
(6) CNNSum は、他のベンチマークよりも信頼性が高く、洞察力に富んだ評価結果を提供します。
この分野の研究を進めるために CNNSum をリリースします。
要約(オリジナル)
Large Language Models (LLMs) have been well-researched in many long-context tasks. However, due to high annotation costs, high-quality long-context summary datasets for training or evaluation are scarce, limiting further research. In this work, we introduce CNNSum, a new multi-scale Chinese long-context novel summarization benchmark, including four subsets, length covering 16k\textasciitilde128k, 695 samples in total, the annotations are human-driven. We evaluate commercial and open-source models on CNNSum and conduct a detailed analysis. Based on the observations, we further conduct fine-tuning exploration with short-context summary data. In our study: (1) GPT-4o underperformed, due to excessive subjective commentary. (2) Currently, long-context summarization mainly relies on memory ability, small LLMs with stable longer context lengths are the most cost-effective. Using long data concatenated from short-context summaries makes a significant improvement. (3) Prompt templates may cause a large performance gap but can be mitigated through fine-tuning. (4) Fine-tuned Chat or Instruction versions may harm the Base model and further fine-tuning cannot bridge performance gap. (5) while models with RoPE base scaling exhibit strong extrapolation potential, their performance may vary significantly when combined with other interpolation methods and need careful selection. (6) CNNSum provides more reliable and insightful evaluation results than other benchmarks. We release CNNSum to advance research in this field.
arxiv情報
著者 | Lingxiao Wei,He Yan,Xiangju Lu,Junmin Zhu,Jun Wang,Wei Zhang |
発行日 | 2024-12-05 17:51:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google