要約
COS(M+O)Sは、可能なストーリー拡張の広大な空間を体系的に調査するオープンエンドプロット開発のためのシステム2インスパイアされたフレームワークであり、3Bパラメーター言語モデルが70Bモデルのプロット品質にアプローチできるようにします。
短階のタスクを選択します。
この方法は、モンテカルロツリー検索(MCTS)を組み合わせることでこれを達成します。これは、一貫性のない驚き(好奇心)を罰し、オッズ比の優先最適化(ORPO)を罰し、高度なポリシーを微調整するためのオッズレベルの驚き(好奇心)に報酬を与えます。
値プロット拡張。
この反復補強学習ループは、複数の候補プロットブランチを体系的に調査し、品質シグナルをバックプロパゲートし、ポリシーをより速い収束に適応させ、特にパズルベースの考え方からキャラクター駆動型のストーリーテリングまでポリシーをシフトします。
短階のプロンプトを備えた小規模テストでは、参加者の67%〜77%がCOS(M+O)Sの低評価の拡張よりも優れており、学習した値関数が整列することを示唆しています。
GPT-4O評価はさらに、COS(M+O)がLlama 3.2 3bから0.59 SDから素朴なシングルパスデコードを上回り、Llama 3.1 70bの0.06 SD以内にあることを示しています(有意差はありません、p = 0.93)。
O1 Place COS(M+O)S 1.5 SDと3Bベースラインの1.5 SDとのペアワイズ比較は、70Bから統計的に有意なギャップを見つけません。
それにもかかわらず、絶対的なストーリーの品質は控えめなままであり、小さなモデルの容量と限られたトレーニングデータによって制約されています。
要約(オリジナル)
We present COS(M+O)S, a System 2-inspired framework for open-ended plot development that systematically explores the vast space of possible story expansions, enabling a 3B-parameter language model to approach the plot quality of a 70B model on select short-story tasks. The method accomplishes this by combining Monte Carlo Tree Search (MCTS), guided by a step-level value model that rewards moderate surprisal (curiosity) while penalizing incoherence, and Odds Ratio Preference Optimization (ORPO) to fine-tune the policy on high-value plot expansions. This iterative reinforcement learning loop systematically explores multiple candidate plot branches, backpropagates quality signals, and adapts the policy for faster convergence, notably shifting the policy from puzzle-based Chain-of-Thought to more character-driven storytelling. In small-scale tests with short-story prompts, 67%-77% of participants favored COS(M+O)S’s highest-rated expansions over lower-rated ones, suggesting that our learned value function aligns. GPT-4o ratings further show that COS(M+O)S surpasses naive single-pass decoding from Llama 3.2 3B by 0.59 SD, coming within 0.06 SD of Llama 3.1 70B (no significant difference, p=0.93). Pairwise comparisons with o1 place COS(M+O)S 1.5 SD above the 3B baseline and find no statistically significant gap from 70B. Nevertheless, absolute story quality remains modest, constrained by the small model’s capacity and limited training data.
arxiv情報
著者 | Tobias Materzok |
発行日 | 2025-01-28 17:44:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google