要約
分布外データに対するパフォーマンスのみに基づいてマルチモーダル モデルの汎化機能を評価すると、その真の堅牢性を把握することはできません。
この研究では、アーキテクチャ設計、言語および視覚モダリティ全体にわたる入力の摂動、タスクの複雑さの増加を考慮して、そのようなモデルの汎化能力における命令と入力の役割を体系的に検証する包括的な評価フレームワークを導入しています。
提案されたフレームワークは、極端な命令摂動に対するマルチモーダル モデルの回復力と観測変化に対する脆弱性を明らかにし、偽の相関に対する過剰適合に関する懸念を引き起こしています。
ロボット操作タスク用の現在の Transformer ベースのマルチモーダル モデルにこの評価フレームワークを採用することで、限界を明らかにし、将来の進歩は、マルチモーダル入力をより適切に統合するアーキテクチャとトレーニングの革新に焦点を当て、付随的なものよりも入力内容に対する感度を優先することでモデルの一般化能力を強化する必要があることを提案します。
相関関係。
要約(オリジナル)
Evaluating the generalisation capabilities of multimodal models based solely on their performance on out-of-distribution data fails to capture their true robustness. This work introduces a comprehensive evaluation framework that systematically examines the role of instructions and inputs in the generalisation abilities of such models, considering architectural design, input perturbations across language and vision modalities, and increased task complexity. The proposed framework uncovers the resilience of multimodal models to extreme instruction perturbations and their vulnerability to observational changes, raising concerns about overfitting to spurious correlations. By employing this evaluation framework on current Transformer-based multimodal models for robotic manipulation tasks, we uncover limitations and suggest future advancements should focus on architectural and training innovations that better integrate multimodal inputs, enhancing a model’s generalisation prowess by prioritising sensitivity to input content over incidental correlations.
arxiv情報
著者 | Amit Parekh,Nikolas Vitsakis,Alessandro Suglia,Ioannis Konstas |
発行日 | 2024-10-28 09:52:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google