要約
マルチモーダル大規模言語モデル (MLLM) の最近の進歩により、視覚と言語を組み合わせたタスクにおけるパフォーマンスが大幅に向上しました。
しかし、マルチモーダルの詳細な理解、複雑なタスクの理解、およびマルチモーダル情報に対する推論には課題が残っています。
この文書では、複雑な視覚的推論タスクにおける現在の MLLM の固有の制限に対処するために設計された、新しいマルチモーダル批判的思考エージェント フレームワークである MMCTAgent を紹介します。
人間の認知プロセスと批判的思考に触発された MMCTAgent は、マルチモーダルな情報を繰り返し分析し、クエリを分解し、戦略を計画し、その推論を動的に進化させます。
さらに、MMCTAgent には、ビジョンベースの批評家を定義し、タスク固有の評価基準を特定する新しいアプローチを通じて、最終的な答えの検証や内省などの批判的思考要素が組み込まれており、それによって意思決定能力が強化されます。
さまざまな画像およびビデオ理解ベンチマークにわたる厳密な評価を通じて、MMCTAgent が (批評家の有無にかかわらず) 基本的な MLLM とその他のツールで強化されたパイプラインの両方を上回るパフォーマンスを示します。
要約(オリジナル)
Recent advancements in Multi-modal Large Language Models (MLLMs) have significantly improved their performance in tasks combining vision and language. However, challenges persist in detailed multi-modal understanding, comprehension of complex tasks, and reasoning over multi-modal information. This paper introduces MMCTAgent, a novel multi-modal critical thinking agent framework designed to address the inherent limitations of current MLLMs in complex visual reasoning tasks. Inspired by human cognitive processes and critical thinking, MMCTAgent iteratively analyzes multi-modal information, decomposes queries, plans strategies, and dynamically evolves its reasoning. Additionally, MMCTAgent incorporates critical thinking elements such as verification of final answers and self-reflection through a novel approach that defines a vision-based critic and identifies task-specific evaluation criteria, thereby enhancing its decision-making abilities. Through rigorous evaluations across various image and video understanding benchmarks, we demonstrate that MMCTAgent (with and without the critic) outperforms both foundational MLLMs and other tool-augmented pipelines.
arxiv情報
著者 | Somnath Kumar,Yash Gadhia,Tanuja Ganu,Akshay Nambi |
発行日 | 2024-05-28 16:55:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google