Towards Robust Multi-Modal Reasoning via Model Selection

要約

LLM (Large Language Model) の推論機能は、最近の研究で広く認められており、ツール学習と自律エージェントに関する研究に刺激を与えています。
LLM はエージェントの「頭脳」として機能し、複数のツールを調整して複数ステップのタスクを共同で解決します。
簡単なタスクのために電卓や天気 API などのツールを呼び出す方法とは異なり、マルチモーダル エージェントは、複雑な課題に対して多様な AI モデルを統合することで優れています。
ただし、現在のマルチモーダル エージェントはモデル選択の重要性を無視しています。主に計画フェーズと実行フェーズに重点を置き、サブタスクごとに事前定義されたタスク固有のモデルのみを呼び出すため、実行が脆弱になります。
一方、他の従来のモデル選択方法は、マルチステップ推論によって生じるサブタスク間の依存関係が無視されているため、マルチモーダル エージェント シナリオと互換性がないか、最適ではありません。
この目的を達成するために、私たちはその中の主要な課題を特定し、テスト時の実行時のオーバーヘッドが無視できるプラグインとして $\textit{M}^3$ フレームワークを提案します。
このフレームワークにより、モデルの選択が改善され、複数ステップの推論におけるマルチモーダル エージェントの堅牢性が強化されます。
適切なベンチマークがない場合、マルチモーダル エージェントにおけるモデル選択の課題を調査するために特別に設計された新しいデータセットである MS-GQA を作成します。
私たちの実験により、私たちのフレームワークがユーザー入力とサブタスクの依存関係の両方を考慮して動的なモデル選択を可能にし、それによって全体的な推論プロセスが強化されることが明らかになりました。
コードとベンチマーク: https://github.com/LINs-lab/M3。

要約(オリジナル)

The reasoning capabilities of LLM (Large Language Model) are widely acknowledged in recent research, inspiring studies on tool learning and autonomous agents. LLM serves as the ‘brain’ of agent, orchestrating multiple tools for collaborative multi-step task solving. Unlike methods invoking tools like calculators or weather APIs for straightforward tasks, multi-modal agents excel by integrating diverse AI models for complex challenges. However, current multi-modal agents neglect the significance of model selection: they primarily focus on the planning and execution phases, and will only invoke predefined task-specific models for each subtask, making the execution fragile. Meanwhile, other traditional model selection methods are either incompatible with or suboptimal for the multi-modal agent scenarios, due to ignorance of dependencies among subtasks arising by multi-step reasoning. To this end, we identify the key challenges therein and propose the $\textit{M}^3$ framework as a plug-in with negligible runtime overhead at test-time. This framework improves model selection and bolsters the robustness of multi-modal agents in multi-step reasoning. In the absence of suitable benchmarks, we create MS-GQA, a new dataset specifically designed to investigate the model selection challenge in multi-modal agents. Our experiments reveal that our framework enables dynamic model selection, considering both user inputs and subtask dependencies, thereby robustifying the overall reasoning process. Our code and benchmark: https://github.com/LINs-lab/M3.

arxiv情報

著者 Xiangyan Liu,Rongxue Li,Wei Ji,Tao Lin
発行日 2023-10-12 16:06:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク