要約
我々は、視覚言語タスクのパフォーマンスを向上させるために、マルチモーダル大規模言語モデル (MLLM) 内でマクロとミクロの視点を統合するための新しいフレームワークである DualFocus を紹介します。
現在の MLLM は通常、事前に定義された解像度での入力にのみ焦点を当てているため、局所領域に関する詳細な質問が不十分になります。
DualFocus メカニズムを導入しました。このメカニズムでは、モデルがマクロの視点から画像に集中し、質問に応答し、その後のミクロの視点分析のためにズームインする適切なサブ領域を特定します。
このモデルは、マクロとミクロの両方の観点からの回答を統合することにより、全体的、詳細な、および複合的な考慮事項を含むタスクに対処することに熟達しています。
MLLM に DualFocus メカニズムを提供するために、Visual Genome (VG) から派生したカスタマイズされたデータセットを厳選し、DualFocus のトレーニング計画に合わせて調整しました。
さまざまなモデルサイズとベンチマークにわたる比較研究を通じて、詳細な検査と全体的な洞察のバランスをとり、MLLM の幻覚インスタンスを大幅に削減し、さまざまな視覚言語タスクのパフォーマンスを向上させる点で DualFocus の優位性を実証しました。
要約(オリジナル)
We present DualFocus, a novel framework for integrating macro and micro perspectives within multi-modal large language models (MLLMs) to enhance vision-language task performance. Current MLLMs typically singularly focus on inputs at a predefined resolution, resulting in deficiencies in detailed questions involving local regions. We introduced a DualFocus mechanism where the model concentrates on the image from a macro perspective, responses to the question, and identifies suitable sub-regions to zoom in for subsequent micro perspective analysis. Via the integration of answers from both macro and micro perspectives, the model is adept at addressing tasks that encompass global, detailed, and combined considerations. To endows the DualFocus mechanism in MLLMs, we curated a tailored dataset derived from the Visual Genome (VG) and adapted it to align with the training regimen of DualFocus. Through comparative studies across different model sizes and benchmarks, we demonstrate DualFocus’s superiority in balancing detailed examination with holistic insight, significantly reducing hallucination instances in MLLMs and improving their performance in various vision-language tasks.
arxiv情報
著者 | Yuhang Cao,Pan Zhang,Xiaoyi Dong,Dahua Lin,Jiaqi Wang |
発行日 | 2024-02-22 18:26:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google