要約
チェーンオブシューター(COT)の推論は、言語モデルの根本的な決定プロセスを忠実に反映することに失敗することがよくあります。
これに対処し、「マルコフ」言語モデルでCOTテキストを因果的に不可欠にし、中間COTを介して次のトークン予測を考慮し、元のプロンプトとは無関係に将来のトークンを予測するようにトレーニングします。
これは、訓練されたCOTがベースラインで次のトークンの予測を改善する量を定量化する「情報性」目標を介して形式化します。
ポリシーグラジエントを使用して、Llama 3.1 8bがGSM8Kで33.2%の絶対精度の改善を達成することを示します。
摂動テストは、COTへのより強い依存度を確認しますが、クロスモデルの転送は、これらの推論の痕跡が通訳全体で一般化されていることを示しています。
私たちのアプローチは、精度と解釈可能性の両方を向上させ、潜在的にコットの推論を任意に長いコンテキストと多様なタスクに拡張します。
要約(オリジナル)
Chain-of-Thought (CoT) reasoning often fails to faithfully reflect a language model’s underlying decision process. We address this by making CoT text causally essential in a ‘Markovian’ language model, factoring next-token prediction through an intermediate CoT and training it to predict future tokens independently of the original prompt. We formalize this via an ‘informativeness’ objective that quantifies how much a trained CoT improves next-token predictions over a baseline. Using policy gradient, we show that Llama 3.1 8B achieves a 33.2% absolute accuracy improvement on GSM8K. Perturbation tests confirm stronger reliance on the CoT, while cross-model transfers indicate these reasoning traces generalize across interpreters. Our approach enhances both accuracy and interpretability, potentially extending CoT reasoning to arbitrarily long contexts and diverse tasks.
arxiv情報
著者 | Scott Viteri,Max Lamparth,Peter Chatain,Clark Barrett |
発行日 | 2025-01-31 12:28:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google