ARIES: Autonomous Reasoning with LLMs on Interactive Thought Graph Environments

要約

最近の研究では、テスト時間計算をスケーリングすることで、推論タスクに関するLLMパフォーマンスを強化できることが示されています。
特に分解可能な問題を抱える有望なアプローチの1つは、解決策スペースを探索するために変換が実行されるグラフとして中間ソリューションを配置することを伴います。
ただし、以前の作業は、検索されたハイパーパラメーターのセットの対象となる、事前に決定されたタスク固有の変換スケジュールに依存しています。
この作業では、グラフ変換はマルコフの決定プロセスでのアクションと見なされ、根本的な推論LLMエージェントの効果的なアクションポリシーを推進するためのポリシーエージェントを実装します。
特に、別のLLMが思考グラフ環境でポリシーエージェントとして行動する能力を調査し、LLMSを推論するためのマルチエージェントアーキテクチャであるAriesを導入します。
牡羊座では、LLMエージェントが分解されたサブ問題を解決し、Policy LLMエージェントは思考グラフ状態の可視性を維持し、問題解決戦略を動的に適応させます。
広範な実験を通じて、監視された微調整(SFT)のない政策エージェントとして既製のLLMSを使用すると、静的変換スケジュールと比較してHumanvalの最大29ドルの精度が得られ、推論コストを35ドル\%$削減し、検索要件を回避できることがわかります。
また、観測された障害モードの徹底的な分析を実施し、LLMサイズの制限と問題の深さ分解を強調することは、LLMガイドの推論をスケーリングするための課題と見なすことができます。

要約(オリジナル)

Recent research has shown that LLM performance on reasoning tasks can be enhanced by scaling test-time compute. One promising approach, particularly with decomposable problems, involves arranging intermediate solutions as a graph on which transformations are performed to explore the solution space. However, prior works rely on pre-determined, task-specific transformation schedules which are subject to a set of searched hyperparameters. In this work, we view thought graph transformations as actions in a Markov decision process, and implement policy agents to drive effective action policies for the underlying reasoning LLM agent. In particular, we investigate the ability for another LLM to act as a policy agent on thought graph environments and introduce ARIES, a multi-agent architecture for reasoning with LLMs. In ARIES, reasoning LLM agents solve decomposed subproblems, while policy LLM agents maintain visibility of the thought graph states, and dynamically adapt the problem-solving strategy. Through extensive experiments, we observe that using off-the-shelf LLMs as policy agents with no supervised fine-tuning (SFT) can yield up to $29\%$ higher accuracy on HumanEval relative to static transformation schedules, as well as reducing inference costs by $35\%$ and avoid any search requirements. We also conduct a thorough analysis of observed failure modes, highlighting that limitations on LLM sizes and the depth of problem decomposition can be seen as challenges to scaling LLM-guided reasoning.

arxiv情報

著者 Pedro Gimenes,Zeyu Cao,Jeffrey Wong,Yiren Zhao
発行日 2025-02-28 16:28:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク