要約
マルチモーダルモデルの汎化能力を、分布外データに対する性能のみに基づいて評価することは、その真の頑健性を捉えることに失敗する。本研究では、このようなモデルの汎化能力における命令と入力の役割を系統的に検討する包括的な評価フレームワークを導入し、アーキテクチャ設計、言語と視覚モダリティにまたがる入力摂動、タスクの複雑性の増大を考慮する。提案されたフレームワークは、マルチモーダルモデルの極端な指示摂動に対する回復力と、観測変化に対する脆弱性を明らかにし、偽の相関に対する過剰適合の懸念を提起する。この評価フレームワークをロボット操作タスクのための現在のTransformerベースのマルチモーダルモデルに適用することで、我々は限界を明らかにし、将来の進歩は、マルチモーダル入力をより良く統合するアーキテクチャとトレーニングの革新に焦点を当てるべきであり、偶発的な相関関係よりも入力内容に対する感度を優先することで、モデルの汎化能力を向上させることを示唆する。
要約(オリジナル)
Evaluating the generalisation capabilities of multimodal models based solely on their performance on out-of-distribution data fails to capture their true robustness. This work introduces a comprehensive evaluation framework that systematically examines the role of instructions and inputs in the generalisation abilities of such models, considering architectural design, input perturbations across language and vision modalities, and increased task complexity. The proposed framework uncovers the resilience of multimodal models to extreme instruction perturbations and their vulnerability to observational changes, raising concerns about overfitting to spurious correlations. By employing this evaluation framework on current Transformer-based multimodal models for robotic manipulation tasks, we uncover limitations and suggest future advancements should focus on architectural and training innovations that better integrate multimodal inputs, enhancing a model’s generalisation prowess by prioritising sensitivity to input content over incidental correlations.
arxiv情報
著者 | Amit Parekh,Nikolas Vitsakis,Alessandro Suglia,Ioannis Konstas |
発行日 | 2024-07-04 14:36:49+00:00 |
arxivサイト | arxiv_id(pdf) |