VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents

要約

大規模マルチモーダル モデル (LMM) は、言語と視覚の両方の機能を統合して、高度な機能を備えた Visual Foundation エージェントを形成し、人工知能の新時代の到来をもたらしました。
これらのエージェントは、無数のタスクにわたって優れていると想定されており、一般的な人工知能に近づく可能性があります。
ただし、既存のベンチマークは、複雑な現実世界の環境における LMM の可能性を十分に発揮したり、実証したりすることができません。
このギャップに対処するために、VisualAgentBench (VAB) を導入します。これは、深さを調査するために策定されたタスクを備えた、エンボディド、グラフィカル ユーザー インターフェイス、ビジュアル デザインなどのさまざまなシナリオにわたるビジュアル基盤エージェントとして LMM をトレーニングおよび評価するために特別に設計された包括的かつ先駆的なベンチマークです。
LMM の理解と対話能力の評価。
9 つの独自の LMM API と 8 つのオープン モデルにわたる厳密なテストを通じて、これらのモデルのかなりの、しかしまだ開発中のエージェント機能を実証しました。
さらに、VAB は、プログラムベースのソルバー、LMM エージェント ブートストラッピング、ヒューマン デモンストレーションなどのハイブリッド手法を通じて構築された軌道トレーニング セットを構築し、動作の複製を通じて LMM のパフォーマンスの大幅な向上を促進します。
私たちの取り組みは、既存のモデルのベンチマークを行うことだけでなく、ビジュアル ファウンデーション エージェントへの将来の開発のための強固な基盤を提供することも目的としています。
コード、トレーニング、テスト データ、および微調整されたオープン LMM の一部は、\url{https://github.com/THUDM/VisualAgentBench} で入手できます。

要約(オリジナル)

Large Multimodal Models (LMMs) have ushered in a new era in artificial intelligence, merging capabilities in both language and vision to form highly capable Visual Foundation Agents. These agents are postulated to excel across a myriad of tasks, potentially approaching general artificial intelligence. However, existing benchmarks fail to sufficiently challenge or showcase the full potential of LMMs in complex, real-world environments. To address this gap, we introduce VisualAgentBench (VAB), a comprehensive and pioneering benchmark specifically designed to train and evaluate LMMs as visual foundation agents across diverse scenarios, including Embodied, Graphical User Interface, and Visual Design, with tasks formulated to probe the depth of LMMs’ understanding and interaction capabilities. Through rigorous testing across nine proprietary LMM APIs and eight open models, we demonstrate the considerable yet still developing agent capabilities of these models. Additionally, VAB constructs a trajectory training set constructed through hybrid methods including Program-based Solvers, LMM Agent Bootstrapping, and Human Demonstrations, promoting substantial performance improvements in LMMs through behavior cloning. Our work not only aims to benchmark existing models but also provides a solid foundation for future development into visual foundation agents. Code, train \& test data, and part of fine-tuned open LMMs are available at \url{https://github.com/THUDM/VisualAgentBench}.

arxiv情報

著者 Xiao Liu,Tianjie Zhang,Yu Gu,Iat Long Iong,Yifan Xu,Xixuan Song,Shudan Zhang,Hanyu Lai,Xinyi Liu,Hanlin Zhao,Jiadai Sun,Xinyue Yang,Yu Yang,Zehan Qi,Shuntian Yao,Xueqiao Sun,Siyi Cheng,Qinkai Zheng,Hao Yu,Hanchen Zhang,Wenyi Hong,Ming Ding,Lihang Pan,Xiaotao Gu,Aohan Zeng,Zhengxiao Du,Chan Hee Song,Yu Su,Yuxiao Dong,Jie Tang
発行日 2024-08-12 17:44:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク