Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects

要約

Large Vision Language Model (LVLM) は、さまざまなビジョン言語対話シナリオで優れたゼロショット機能を実証しています。
ただし、きめの細かい視覚物体検出がないため、モデルによる画像の詳細の理解が妨げられ、取り返しのつかない幻覚や事実誤認が発生します。
この論文では、きめ細かいクロスモーダルコラボレーションから視覚と言語の調整をブートストラップする、新しいマルチモーダル事前トレーニングおよび命令微調整パラダイムである Lyrics を提案します。
BLIP-2 の基盤に基づいて構築された Lyrics は、画像タグ付け、オブジェクト検出、セマンティック セグメンテーション モジュールを含むビジュアル リファイナーから抽出されたローカルな視覚特徴をクエリ トランスフォーマーに注入します。一方、テキスト側では、言語入力により境界ボックスとタグが装備されます。
ビジュアルリファイナーから派生。
さらに、2段階のトレーニングスキームを導入します。このスキームでは、事前トレーニング段階で、明示的かつ包括的な視覚と言語の調整目標を通じてモダリティのギャップを橋渡しします。
命令の微調整段階で、モデルが具体的な視覚オブジェクトから有益な特徴を抽出できるようにする重要な方法である、セマンティックを意識した視覚特徴抽出を導入します。
私たちのアプローチは、さまざまな視覚言語タスクにわたる 13 のデータセットで堅牢なパフォーマンスを達成し、11 のシナリオベースのベンチマーク ツールキットで有望なマルチモーダルな理解、認識、会話機能を実証します。

要約(オリジナル)

Large Vision Language Models (LVLMs) have demonstrated impressive zero-shot capabilities in various vision-language dialogue scenarios. However, the absence of fine-grained visual object detection hinders the model from understanding the details of images, leading to irreparable visual hallucinations and factual errors. In this paper, we propose Lyrics, a novel multi-modal pre-training and instruction fine-tuning paradigm that bootstraps vision-language alignment from fine-grained cross-modal collaboration. Building on the foundation of BLIP-2, Lyrics infuses local visual features extracted from a visual refiner that includes image tagging, object detection and semantic segmentation modules into the Querying Transformer, while on the text side, the language inputs equip the boundary boxes and tags derived from the visual refiner. We further introduce a two-stage training scheme, in which the pre-training stage bridges the modality gap through explicit and comprehensive vision-language alignment targets. During the instruction fine-tuning stage, we introduce semantic-aware visual feature extraction, a crucial method that enables the model to extract informative features from concrete visual objects. Our approach achieves robust performance on 13 datasets across various vision-language tasks, and demonstrates promising multi-modal understanding, perception and conversation capabilities in 11 scenario-based benchmark toolkits.

arxiv情報

著者 Junyu Lu,Dixiang Zhang,Songxin Zhang,Zejian Xie,Zhuoyang Song,Cong Lin,Jiaxing Zhang,Bingyi Jing,Pingjian Zhang
発行日 2024-04-12 10:26:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク