COS(M+O)S: Curiosity and RL-Enhanced MCTS for Exploring Story Space via Language Models

要約

COS(M+O)Sは、可能なストーリー拡張の広大な空間を体系的に調査するオープンエンドプロット開発のためのシステム2インスパイアされたフレームワークであり、3Bパラメーター言語モデルが70Bモデルのプロット品質にアプローチできるようにします。
短階のタスクを選択します。
この方法は、モンテカルロツリー検索(MCTS)を組み合わせることでこれを達成します。これは、一貫性のない驚き(好奇心)を罰し、オッズ比の優先最適化(ORPO)を罰し、高度なポリシーを微調整するためのオッズレベルの驚き(好奇心)に報酬を与えます。
値プロット拡張。
この反復補強学習ループは、複数の候補プロットブランチを体系的に調査し、品質シグナルをバックプロパゲートし、ポリシーをより速い収束に適応させ、特にパズルベースの考え方からキャラクター駆動型のストーリーテリングまでポリシーをシフトします。
短階のプロンプトを備えた小規模テストでは、参加者の67%〜77%がCOS(M+O)Sの低評価の拡張よりも優れており、学習した値関数が整列することを示唆しています。
GPT-4O評価はさらに、COS(M+O)がLlama 3.2 3bから0.59 SDから素朴なシングルパスデコードを上回り、Llama 3.1 70bの0.06 SD以内にあることを示しています(有意差はありません、p = 0.93)。
O1 Place COS(M+O)S 1.5 SDと3Bベースラインの1.5 SDとのペアワイズ比較は、70Bから統計的に有意なギャップを見つけません。
それにもかかわらず、絶対的なストーリーの品質は控えめなままであり、小さなモデルの容量と限られたトレーニングデータによって制約されています。

要約(オリジナル)

We present COS(M+O)S, a System 2-inspired framework for open-ended plot development that systematically explores the vast space of possible story expansions, enabling a 3B-parameter language model to approach the plot quality of a 70B model on select short-story tasks. The method accomplishes this by combining Monte Carlo Tree Search (MCTS), guided by a step-level value model that rewards moderate surprisal (curiosity) while penalizing incoherence, and Odds Ratio Preference Optimization (ORPO) to fine-tune the policy on high-value plot expansions. This iterative reinforcement learning loop systematically explores multiple candidate plot branches, backpropagates quality signals, and adapts the policy for faster convergence, notably shifting the policy from puzzle-based Chain-of-Thought to more character-driven storytelling. In small-scale tests with short-story prompts, 67%-77% of participants favored COS(M+O)S’s highest-rated expansions over lower-rated ones, suggesting that our learned value function aligns. GPT-4o ratings further show that COS(M+O)S surpasses naive single-pass decoding from Llama 3.2 3B by 0.59 SD, coming within 0.06 SD of Llama 3.1 70B (no significant difference, p=0.93). Pairwise comparisons with o1 place COS(M+O)S 1.5 SD above the 3B baseline and find no statistically significant gap from 70B. Nevertheless, absolute story quality remains modest, constrained by the small model’s capacity and limited training data.

arxiv情報

著者 Tobias Materzok
発行日 2025-01-28 17:44:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク