Self-Steering Language Models

要約

テスト時間の推論により、言語モデルは複雑なタスクに取り組むことができますが、自然言語での検索または計画は遅く、費用がかかり、エラーが発生しやすくなります。
しかし、LMSが問題を解決するために必要な正確な推論ステップをエミュレートするのに苦労している場合でも、彼らはしばしばその抽象的な構造を説明することに優れています。
このペーパーでは、プランナーモデルがフォロワーモデルの母集団によって実行されるタスク固有の推論プログラムを生成する「自発的」LMSの方法であるDisciplを紹介します。
私たちのアプローチは、LMの推論を導く再帰検索手順を作成する機能をLMSに装備し、検証可能で効率的な推論の新しい形式を可能にします。
小さなフォロワー(ラマ-3.2-1Bなど)でインスタンス化された場合、GPT-4OやO1を含むはるかに大きなモデルを、挑戦的な制約された世代タスクと、懲戒処分が一致します(時にはアウトパフォームします)。
実行からの分離計画において、私たちの作業は、標準のベストnサンプリングを上回る、微調整を必要としない、既存のLMSによって自動的に実装できる、非常に平行化されたモンテカルロ推論戦略の設計スペースを開きます。

要約(オリジナル)

While test-time reasoning enables language models to tackle complex tasks, searching or planning in natural language can be slow, costly, and error-prone. But even when LMs struggle to emulate the precise reasoning steps needed to solve a problem, they often excel at describing its abstract structure–both how to verify solutions and how to search for them. This paper introduces DisCIPL, a method for ‘self-steering’ LMs where a Planner model generates a task-specific inference program that is executed by a population of Follower models. Our approach equips LMs with the ability to write recursive search procedures that guide LM inference, enabling new forms of verifiable and efficient reasoning. When instantiated with a small Follower (e.g., Llama-3.2-1B), DisCIPL matches (and sometimes outperforms) much larger models, including GPT-4o and o1, on challenging constrained generation tasks. In decoupling planning from execution, our work opens up a design space of highly-parallelized Monte Carlo inference strategies that outperform standard best-of-N sampling, require no finetuning, and can be implemented automatically by existing LMs.

arxiv情報

著者 Gabriel Grand,Joshua B. Tenenbaum,Vikash K. Mansinghka,Alexander K. Lew,Jacob Andreas
発行日 2025-04-09 17:54:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク