要約
マルチモーダル言語モデル (MLLM) は現実世界の環境でますます適用されるようになっており、3D 空間を解釈して時間的ダイナミクスを理解する能力が必要になっています。
現在の方法では、多くの場合、これを達成するために、特殊なアーキテクチャ設計やタスク固有の微調整に依存しています。
アーキテクチャを変更したりタスク固有の微調整を必要とせずに、2D 画像を入力として MLLM の時空間推論を強化するシンプルで軽量な手法である Coarse Correspondences を紹介します。
私たちの方法では、軽量の追跡モデルを使用して、ビデオ内のフレーム間または異なる画像視点にわたる主要なオブジェクトの対応関係を特定し、視覚的なプロンプトを通じてこの情報を MLLM に伝えます。
このシンプルなトレーニング不要のアプローチは、時空間推論を必要とする 4 つのベンチマークで一貫して GPT4-V/O に大幅な向上をもたらすことを実証します。これには、ScanQA で +20.5\% の改善、OpenEQA のエピソード記憶サブセットで +9.7\%、+6.0 が含まれます。
長編ビデオ ベンチマーク EgoSchema では \%、R2R ナビゲーション ベンチマークでは +11\%。
さらに、粗い対応をトレーニングと推論の両方に適用すると、オープンソース MLLM の空間推論も強化でき (ScanQA で +6.9\%)、その改善は SQA3D などの目に見えないデータセットにも一般化できる (+3.1\%) ことを示します。
)。
まとめると、粗い対応により、時空間推論を必要とする下流のタスクにおけるモデルのパフォーマンスが効果的かつ効率的に向上することがわかります。
要約(オリジナル)
Multimodal language models (MLLMs) are increasingly being applied in real-world environments, necessitating their ability to interpret 3D spaces and comprehend temporal dynamics. Current methods often rely on specialized architectural designs or task-specific fine-tuning to achieve this. We introduce Coarse Correspondences, a simple lightweight method that enhances MLLMs’ spatial-temporal reasoning with 2D images as input, without modifying the architecture or requiring task-specific fine-tuning. Our method uses a lightweight tracking model to identify primary object correspondences between frames in a video or across different image viewpoints, and then conveys this information to MLLMs through visual prompting. We demonstrate that this simple training-free approach brings substantial gains to GPT4-V/O consistently on four benchmarks that require spatial-temporal reasoning, including +20.5\% improvement on ScanQA, +9.7\% on OpenEQA’s episodic memory subset, +6.0\% on the long-form video benchmark EgoSchema, and +11\% on the R2R navigation benchmark. Additionally, we show that Coarse Correspondences can also enhance open-source MLLMs’ spatial reasoning (by +6.9\% on ScanQA) when applied in both training and inference and that the improvement can generalize to unseen datasets such as SQA3D (+3.1\%). Taken together, we show that Coarse Correspondences effectively and efficiently boosts models’ performance on downstream tasks requiring spatial-temporal reasoning.
arxiv情報
著者 | Benlin Liu,Yuhao Dong,Yiqin Wang,Zixian Ma,Yansong Tang,Luming Tang,Yongming Rao,Wei-Chiu Ma,Ranjay Krishna |
発行日 | 2024-11-21 18:52:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google