RBF++: Quantifying and Optimizing Reasoning Boundaries across Measurable and Unmeasurable Capabilities for Chain-of-Thought Reasoning

要約

チェーンオブテーブ(COT)の推論は、複雑なタスクの大規模な言語モデル(LLM)を強化するのに効果的であることが証明されており、その根本的なメカニズムの研究に拍車をかけています。
ただし、実際のアプリケーションには2つの主要な課題が残っています。(1)COT機能の測定可能な境界を評価および最適化するための定量的メトリックの欠如と実用的なガイドライン、および(2)マルチモーダルの知覚などの測定不可能なCOT機能の境界を評価する方法がないこと。
これらのギャップに対処するために、推論境界フレームワーク++(RBF ++)を紹介します。
最初の課題に取り組むために、推論境界(RB)をCOTパフォーマンスの最大限界として定義します。
また、RBSの組み合わせ法を提案し、定量分析を可能にし、さまざまなCOTタスクで実用的なガイダンスを提供します。
2番目の課題、特にマルチモーダルシナリオでは、測定不可能なRBをシナリオ固有の定数に置き換える絶え間ない仮定を導入します。
さらに、測定不可能なRBSを2つのサブバウンダリに分割する推論境界分割メカニズムを提案し、測定不可能なドメインの知識とマルチモーダル知覚機能の両方の定量化と最適化を促進します。
13のタスクにわたる38のモデルを含む広範な実験は、クロスモーダル設定でのフレームワークの実現可能性を検証します。
さらに、10のCOT戦略を評価し、2つの補完的な観点から最適化と減衰に関する洞察を提供し、LLM推論でRBを測定するための評価ベンチマークを拡張します。
この作業が、LLMSのRBSの理解と最適化戦略を進めることを願っています。
コードとデータは、https://github.com/lightchen233/Reasoning-boundaryで入手できます。

要約(オリジナル)

Chain-of-Thought (CoT) reasoning has proven effective in enhancing large language models (LLMs) on complex tasks, spurring research into its underlying mechanisms. However, two primary challenges remain for real-world applications: (1) the lack of quantitative metrics and actionable guidelines for evaluating and optimizing measurable boundaries of CoT capability, and (2) the absence of methods to assess boundaries of unmeasurable CoT capability, such as multimodal perception. To address these gaps, we introduce the Reasoning Boundary Framework++ (RBF++). To tackle the first challenge, we define the reasoning boundary (RB) as the maximum limit of CoT performance. We also propose a combination law for RBs, enabling quantitative analysis and offering actionable guidance across various CoT tasks. For the second challenge, particularly in multimodal scenarios, we introduce a constant assumption, which replaces unmeasurable RBs with scenario-specific constants. Additionally, we propose the reasoning boundary division mechanism, which divides unmeasurable RBs into two sub-boundaries, facilitating the quantification and optimization of both unmeasurable domain knowledge and multimodal perception capabilities. Extensive experiments involving 38 models across 13 tasks validate the feasibility of our framework in cross-modal settings. Additionally, we evaluate 10 CoT strategies, offer insights into optimization and decay from two complementary perspectives, and expand evaluation benchmarks for measuring RBs in LLM reasoning. We hope this work advances the understanding of RBs and optimization strategies in LLMs. Code and data are available at https://github.com/LightChen233/reasoning-boundary.

arxiv情報

著者 Qiguang Chen,Libo Qin,Jinhao Liu,Yue Liao,Jiaqi Wang,Jingxuan Zhou,Wanxiang Che
発行日 2025-05-19 16:25:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク