要約
マルチモーダルの大手言語モデル(MLLM)は一般的なビジョン言語タスクに優れていますが、視覚空間認知 – 空間レイアウト、関係、ダイナミクスに関する推論 – は依然として重要な課題です。
多くの場合、既存のモデルには、必要なアーキテクチャコンポーネントと、きめ細かい空間的理解のための専門的なトレーニングデータが欠けています。
空間推論を強化するために設計された新規MLLMであるVICA2(視覚空間認知アシスタント2)を紹介します。
VICA2は、セマンティクス用のSiglipと空間構造のhieraを統合するデュアルビジョンエンコーダーアーキテクチャを備えており、効率のためのトークン比制御メカニズムと組み合わせています。
また、ターゲット命令チューニングのために322,000を超える空間的に接地された質問回答ペアを備えた新しい大規模なデータセットであるVICA-322Kも開発しました。
挑戦的なVSIベンチベンチマークでは、VICA2-7Bモデルは最先端の平均スコア56.8を達成し、大規模なオープンソースモデル(LLAVA-Next-Video-72B、40.9など)および主要な専有モデル(Gemini-1.5 Pro、45.4)を大幅に上回ります。
これは、コンパクトモデルで強力な視覚空間知能を達成する際のアプローチの有効性を示しています。
さらなる研究を促進するために、VICA2、そのコードベース、およびVICA-322Kデータセットをリリースします。
要約(オリジナル)
While Multimodal Large Language Models (MLLMs) excel at general vision-language tasks, visuospatial cognition – reasoning about spatial layouts, relations, and dynamics – remains a significant challenge. Existing models often lack the necessary architectural components and specialized training data for fine-grained spatial understanding. We introduce ViCA2 (Visuospatial Cognitive Assistant 2), a novel MLLM designed to enhance spatial reasoning. ViCA2 features a dual vision encoder architecture integrating SigLIP for semantics and Hiera for spatial structure, coupled with a token ratio control mechanism for efficiency. We also developed ViCA-322K, a new large-scale dataset with over 322,000 spatially grounded question-answer pairs for targeted instruction tuning. On the challenging VSI-Bench benchmark, our ViCA2-7B model achieves a state-of-the-art average score of 56.8, significantly surpassing larger open-source models (e.g., LLaVA-NeXT-Video-72B, 40.9) and leading proprietary models (Gemini-1.5 Pro, 45.4). This demonstrates the effectiveness of our approach in achieving strong visuospatial intelligence with a compact model. We release ViCA2, its codebase, and the ViCA-322K dataset to facilitate further research.
arxiv情報
著者 | Qi Feng |
発行日 | 2025-05-28 08:29:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google