要約
視覚言語モデルの最近の進歩により、視覚的命令の調整を通じて幅広いタスクが顕著に一般化することが示されました。
ただし、事前トレーニングされたビジョン エンコーダーと大規模言語モデル (LLM) の間のギャップを埋めることが、ネットワーク全体のボトルネックになります。
クロスモダリティの調整を改善するために、既存の研究では通常、より広範囲の視覚タスクをカバーするより多くの視覚指示データを考慮して質問応答モデルを微調整しますが、取得にコストがかかり、豊富なコンテキスト情報が十分に調査されていません。
画像に含まれる。
この論文ではまず、視覚的指示データ内の見落とされているコンテキストを利用することを試み、質の高い質問をする方法を自己教師ありで「学習」するようにモデルをトレーニングします。
このようにして、SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant という新しいフレームワークを導入します。
SQ-LLaVA は、視覚的な手がかりと事前の言語知識を分析しながら、柔軟で意味のある画像関連の質問を生成する能力を示し、一般化された視覚的理解の高度なレベルを示します。
さらに、高品質の命令データに基づいて SQ-LLaVA を微調整すると、従来の視覚的命令の調整方法と比較してパフォーマンスの向上が見られます。
この改善により、さまざまなコンテキストにわたる視覚コンテンツをより深く、より微妙に理解する際の自問テクニックの有効性が強調されます。
要約(オリジナル)
Recent advances in vision-language models have shown notable generalization in broad tasks through visual instruction tuning. However, bridging the gap between the pre-trained vision encoder and the large language models (LLMs) becomes the whole network’s bottleneck. To improve cross-modality alignment, existing works usually consider more visual instruction data covering a broader range of vision tasks to fine-tune the model for question-answering, which, however, is costly to obtain and has not thoroughly explored the rich contextual information contained in images. This paper first attempts to harness the overlooked context within visual instruction data, training the model to self-supervised ‘learning’ how to ask high-quality questions. In this way, we introduce a novel framework named SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant. SQ-LLaVA exhibits proficiency in generating flexible and meaningful image-related questions while analyzing the visual clue and prior language knowledge, signifying an advanced level of generalized visual understanding. Moreover, fine-tuning SQ-LLaVA on higher-quality instruction data shows a performance improvement compared with traditional visual-instruction tuning methods. This improvement highlights the efficacy of self-questioning techniques in achieving a deeper and more nuanced comprehension of visual content across various contexts.
arxiv情報
著者 | Guohao Sun,Can Qin,Jiamian Wang,Zeyuan Chen,Ran Xu,Zhiqiang Tao |
発行日 | 2024-07-15 17:37:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google