要約
現在の言語モデルは、有限の語彙からトークンを自動化することにより、チェーンオブ考えのトレースを生成します。
この個別のサンプリングは驚くべき成功を収めましたが、連続的に価値のあるトークン(COT2)を使用してチェーンを実施することは、より豊かでより表現力のある代替手段を提供します。
私たちの仕事は、検索機能を本質的に必要とし、COT2の最適化と探索方法を提供する論理的推論タスクを通じてCOT2の利点を検証します。
理論的には、COT2により、モデルが複数のトレースを並行して追跡し、推論効率の利点を定量化できることを示しています。
特に、COT2を装備した1つの層変圧器は、十分な埋め込み寸法を考慮して、組み合わせ「サブセット合計問題」を実証できます。
これらの洞察は、ターゲットトレースのセットの経験的トークン分布にソフトマックスの出力を一致させる斬新で効果的な監督戦略につながります。
これを補完すると、COT2のポリシーの最適化と自己改善のロックを解除するサンプリング戦略を導入します。
最初の戦略は、各デコードステップで$ k $離散トークンをサンプリングおよび構成して、並列処理のレベルを制御し、$ k = 1 $の場合は標準のコットに削減します。
2番目の戦略は、シンプレックスの確率に関する継続的な探索に依存しています。
実験により、COT2によるポリシーの最適化により、モデルの最初の離散または継続的な監督を超えてモデルのパフォーマンスが改善されることが確認されています。
要約(オリジナル)
Current language models generate chain-of-thought traces by autoregressively sampling tokens from a finite vocabulary. While this discrete sampling has achieved remarkable success, conducting chain-of-thought with continuously-valued tokens (CoT2) offers a richer and more expressive alternative. Our work examines the benefits of CoT2 through logical reasoning tasks that inherently require search capabilities and provide optimization and exploration methods for CoT2. Theoretically, we show that CoT2 allows the model to track multiple traces in parallel and quantify its benefits for inference efficiency. Notably, one layer transformer equipped with CoT2 can provably solve the combinatorial ‘subset sum problem’ given sufficient embedding dimension. These insights lead to a novel and effective supervision strategy where we match the softmax outputs to the empirical token distributions of a set of target traces. Complementing this, we introduce sampling strategies that unlock policy optimization and self-improvement for CoT2. Our first strategy samples and composes $K$ discrete tokens at each decoding step to control the level of parallelism, and reduces to standard CoT when $K=1$. Our second strategy relies on continuous exploration over the probability simplex. Experiments confirm that policy optimization with CoT2 indeed improves the performance of the model beyond its initial discrete or continuous supervision.
arxiv情報
著者 | Halil Alperen Gozeten,M. Emrullah Ildiz,Xuechen Zhang,Hrayr Harutyunyan,Ankit Singh Rawat,Samet Oymak |
発行日 | 2025-05-29 16:58:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google