要約
マルチモーダル大規模言語モデル (MLLM) は、主に大規模言語モデル (LLM) の卓越した文脈内理解とマルチタスク学習の強みにより、顕著な視覚言語能力を実証してきました。
視覚的な指示の調整の出現により、MLLM の視覚言語理解のパフォーマンスがさらに向上しました。
しかし、既存の MLLM は、画像内に \textit{what} オブジェクトがあることを適切に認識しますが、特に距離 (シーンの深度) 軸に沿って、これらのオブジェクトが \textit{where} にあることを効果的に識別するという課題に依然として直面しています。
MLLM のこの制限を克服するために、MLLM が画像内のオブジェクト間の近接関係を推測できるように設計された新しいフレームワークである近接質問応答 (近接 QA) を導入します。
このフレームワークは 2 つのフェーズで動作します。第 1 フェーズでは、オブジェクトの相対的な奥行きを理解するようにモデルをガイドすることに重点を置き、第 2 フェーズでは、モデルが奥行きの認識に基づいてオブジェクト間の近接関係を推論することをさらに促進します。
また、深さ情報とオブジェクトの近接関係を組み込んだ追加の命令を含む、Proximity-110K と呼ばれる VQA データセットも提案します。
私たちは、他の最先端の MLLM を上回る、近接性 QA の奥行き認識および近接性分析における優れた能力を検証するために広範な実験を実施しました。
コードとデータセットは \textcolor{magenta}{https://github.com/NorthSummer/ProximityQA.git} でリリースされます。
要約(オリジナル)
Multi-modal large language models (MLLMs) have demonstrated remarkable vision-language capabilities, primarily due to the exceptional in-context understanding and multi-task learning strengths of large language models (LLMs). The advent of visual instruction tuning has further enhanced MLLMs’ performance in vision-language understanding. However, while existing MLLMs adeptly recognize \textit{what} objects are in an image, they still face challenges in effectively discerning \textit{where} these objects are, particularly along the distance (scene depth) axis. To overcome this limitation in MLLMs, we introduce Proximity Question Answering (Proximity QA), a novel framework designed to enable MLLMs to infer the proximity relationship between objects in images. The framework operates in two phases: the first phase focuses on guiding the models to understand the relative depth of objects, and the second phase further encourages the models to infer the proximity relationships between objects based on their depth perceptions. We also propose a VQA dataset called Proximity-110K, containing additional instructions that incorporate depth information and the proximity relationships of objects. We have conducted extensive experiments to validate Proximity QA’s superior ability in depth perception and proximity analysis, outperforming other state-of-the-art MLLMs. Code and dataset will be released at \textcolor{magenta}{https://github.com/NorthSummer/ProximityQA.git}.
arxiv情報
著者 | Jianing Li,Xi Nan,Ming Lu,Li Du,Shanghang Zhang |
発行日 | 2024-01-31 14:21:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google