要約
大規模な言語モデル(LLMS)は印象的な推論能力を実証していますが、そのパフォーマンスは促す戦略とモデルスケールに大きく依存しています。
強化学習と微調整が展開され、推論を強化していますが、これらのアプローチはかなりの計算とデータのオーバーヘッドが発生します。
この作業では、テスト時にのみLLMの推論を強化する動的なグラフベースの推論フレームワークである思考の適応グラフ(AGOT)を紹介します。
Agotは、思考のチェーン(Cot)やTree of Thought(TOT)などの固定段階の方法に依存するのではなく、複雑なクエリを構造化されたサブ問題に再帰的に分解し、相互依存の推論ステップの動的指向の非環式グラフ(DAG)を形成します。
さらなる分析を必要とするサブ問題のみを選択的に拡大することにより、Agotは、チェーン、ツリー、グラフのパラダイムの強さを、最も必要な場合に計算を割り当てるまとまりのあるフレームワークに統合します。
マルチホップの回復、科学的推論、数学的問題解決にまたがる多様なベンチマークでのアプローチを検証し、科学的推論タスク(GPQA)の最大46.2%の改善を達成します。
最大の反復アプローチ。
これらの結果は、動的な分解と構造化された再帰が、トレーニング後の修正のスケーラブルで費用対効果の高い代替品を提供し、LLMSのより堅牢で汎用的な推論への道を開くことを示唆しています。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated impressive reasoning capabilities, yet their performance is highly dependent on the prompting strategy and model scale. While reinforcement learning and fine-tuning have been deployed to boost reasoning, these approaches incur substantial computational and data overhead. In this work, we introduce Adaptive Graph of Thoughts (AGoT), a dynamic, graph-based inference framework that enhances LLM reasoning solely at test time. Rather than relying on fixed-step methods like Chain of Thought (CoT) or Tree of Thoughts (ToT), AGoT recursively decomposes complex queries into structured subproblems, forming an dynamic directed acyclic graph (DAG) of interdependent reasoning steps. By selectively expanding only those subproblems that require further analysis, AGoT unifies the strengths of chain, tree, and graph paradigms into a cohesive framework that allocates computation where it is most needed. We validate our approach on diverse benchmarks spanning multi-hop retrieval, scientific reasoning, and mathematical problem-solving, achieving up to 46.2% improvement on scientific reasoning tasks (GPQA) – comparable to gains achieved through computationally intensive reinforcement learning approaches and outperforming state-of-the-art iterative approaches. These results suggest that dynamic decomposition and structured recursion offer a scalable, cost-effective alternative to post-training modifications, paving the way for more robust, general-purpose reasoning in LLMs.
arxiv情報
著者 | Tushar Pandey,Ara Ghukasyan,Oktay Goktas,Santosh Kumar Radha |
発行日 | 2025-02-07 16:54:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google