SuperWriter: Reflection-Driven Long-Form Generation with Large Language Models

要約

長い形式のテキスト生成は、特にコヒーレンスを維持し、論理的な一貫性を確保し、シーケンスの長さが増加するにつれてテキストの品質を維持する上で、大規模な言語モデル(LLM)にとって重要な課題です。
これらの制限に対処するために、長型のテキスト生成の品質と一貫性を高めるために設計されたエージェントベースのフレームワークであるSuperWriter-Agentを提案します。
SuperWriter-Agentは、明示的な構造化された思考計画と改良段階を世代パイプラインに導入し、プロの作家のそれに似たより意図的で認知的に根拠のあるプロセスに従うようにモデルを導きます。
このフレームワークに基づいて、7BのスーパーライターLMをトレーニングするために、監視された微調整データセットを構築します。
さらに、モンテカルロツリー検索(MCTS)を使用して最終的な品質評価を伝播し、それに応じて各世代のステップを最適化する階層的な直接選好最適化(DPO)手順を開発します。
多様なベンチマーク全体の経験的結果は、スーパーライターLMが最新のパフォーマンスを達成し、自動評価と人間の評価の両方でさらに大規模なベースラインモデルを上回ることを示しています。
さらに、包括的なアブレーション研究は、階層DPOの有効性を実証し、長型のテキスト生成の品質を改善するために構造化された思考ステップを組み込むことの価値を強調しています。

要約(オリジナル)

Long-form text generation remains a significant challenge for large language models (LLMs), particularly in maintaining coherence, ensuring logical consistency, and preserving text quality as sequence length increases. To address these limitations, we propose SuperWriter-Agent, an agent-based framework designed to enhance the quality and consistency of long-form text generation. SuperWriter-Agent introduces explicit structured thinking-through planning and refinement stages into the generation pipeline, guiding the model to follow a more deliberate and cognitively grounded process akin to that of a professional writer. Based on this framework, we construct a supervised fine-tuning dataset to train a 7B SuperWriter-LM. We further develop a hierarchical Direct Preference Optimization (DPO) procedure that uses Monte Carlo Tree Search (MCTS) to propagate final quality assessments and optimize each generation step accordingly. Empirical results across diverse benchmarks demonstrate that SuperWriter-LM achieves state-of-the-art performance, surpassing even larger-scale baseline models in both automatic evaluation and human evaluation. Furthermore, comprehensive ablation studies demonstrate the effectiveness of hierarchical DPO and underscore the value of incorporating structured thinking steps to improve the quality of long-form text generation.

arxiv情報

著者 Yuhao Wu,Yushi Bai,Zhiqiang Hu,Juanzi Li,Roy Ka-Wei Lee
発行日 2025-06-04 17:27:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク