Recursive Introspection: Teaching Language Model Agents How to Self-Improve

要約

基礎モデルでインテリジェントなエージェントの動作を可能にするための中心的な部分は、より多くの計算や対話が利用可能になったときに、その動作を内省し、推論し、間違いを修正できるようにすることです。
最も強力な独自の大規模言語モデル (LLM) であっても、間違いを犯していると明示的に伝えられたシナリオであっても、応答を逐次改善し続ける能力を十分に発揮することはできません。
このペーパーでは、以前の研究ではこの機能は達成できないかもしれないという仮説が立てられていましたが、この機能を導入するために LLM を微調整するためのアプローチである RISE: Recursive IntroSpEction を開発しました。
私たちのアプローチは、反復的な微調整手順を規定しており、これは、テスト時の問題を解決するために以前に失敗した試みを実行した後、オプションで追加の環境フィードバックを使用して、モデルに応答を変更する方法を教えようとします。
RISE は、初期状態がプロンプトであるマルチターン マルコフ決定プロセス (MDP) を解決するものとして、シングルターン プロンプトの微調整を行います。
オンライン模倣学習と強化学習の原理に触発され、LLM にその後の反復で以前の間違いを再帰的に検出して修正する機能を組み込むために、マルチターン データ収集とトレーニングの戦略を提案します。
私たちの実験では、RISE により、Llama2、Llama3、および Mistral モデルが数的推論タスクのターンを増やすことで自己改善し、同じ量の推論時間の計算を与えた場合のいくつかの単一ターン戦略を上回るパフォーマンスを示すことが示されました。
また、RISE は拡張性に優れており、多くの場合、より高性能なモデルを使用するとより大きなメリットが得られることもわかりました。
私たちの分析によると、RISE は、より複雑な分布を表現した結果として 1 ターンの能力を損なうことなく、困難なプロンプトに対して正しい解決策に到達するために、応答に有意義な改善を加えていることがわかりました。

要約(オリジナル)

A central piece in enabling intelligent agentic behavior in foundation models is to make them capable of introspecting upon their behavior, reasoning, and correcting their mistakes as more computation or interaction is available. Even the strongest proprietary large language models (LLMs) do not quite exhibit the ability of continually improving their responses sequentially, even in scenarios where they are explicitly told that they are making a mistake. In this paper, we develop RISE: Recursive IntroSpEction, an approach for fine-tuning LLMs to introduce this capability, despite prior work hypothesizing that this capability may not be possible to attain. Our approach prescribes an iterative fine-tuning procedure, which attempts to teach the model how to alter its response after having executed previously unsuccessful attempts to solve a hard test-time problem, with optionally additional environment feedback. RISE poses fine-tuning for a single-turn prompt as solving a multi-turn Markov decision process (MDP), where the initial state is the prompt. Inspired by principles in online imitation learning and reinforcement learning, we propose strategies for multi-turn data collection and training so as to imbue an LLM with the capability to recursively detect and correct its previous mistakes in subsequent iterations. Our experiments show that RISE enables Llama2, Llama3, and Mistral models to improve themselves with more turns on math reasoning tasks, outperforming several single-turn strategies given an equal amount of inference-time computation. We also find that RISE scales well, often attaining larger benefits with more capable models. Our analysis shows that RISE makes meaningful improvements to responses to arrive at the correct solution for challenging prompts, without disrupting one-turn abilities as a result of expressing more complex distributions.

arxiv情報

著者 Yuxiao Qu,Tianjun Zhang,Naman Garg,Aviral Kumar
発行日 2024-07-26 17:50:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク