Viewpoint Integration and Registration with Vision Language Foundation Model for Image Change Understanding

要約

最近、事前トレーニングされたビジョン言語基盤モデル (VLFM) の開発により、多くのタスクで目覚ましいパフォーマンスが実現しました。
ただし、これらのモデルは単一画像を理解する能力は強力ですが、複数の画像を理解する能力が欠けている傾向があります。
したがって、モデルが複数の画像間の実際の変化を捉えて言語で記述する必要がある画像変化理解 (ICU) に対処するためにこれらを直接適用することはできません。
この論文では、次の問題により、既存の VLFM が ICU に直接適用された場合のパフォーマンスが低いことを発見しました: (1) VLFM は通常、単一の画像のグローバル表現を学習しますが、ICU は複数の画像間のニュアンスを捉える必要があります。
(2) VLFM の ICU パフォーマンスは、視点の変化によって大きく影響されます。これは、視点が変化したときにオブジェクト間の関係が変化することによって引き起こされます。
これらの問題に対処するために、ビューポイントの統合と登録方法を提案します。
具体的には、画像ペア間のニュアンスを効果的にキャプチャするために、設計されたトレーニング可能なアダプターと融合アダプターを挿入することで事前トレーニングされたエンコーダーを微調整する融合アダプター画像エンコーダーを紹介します。
さらに、視点登録フローと意味強調モジュールは、それぞれ視覚空間と意味空間における視点の変化によって引き起こされるパフォーマンスの低下を軽減するように設計されています。
CLEVR-Change と Spot-the-Diff の実験結果は、私たちの手法がすべてのメトリクスで最先端のパフォーマンスを達成していることを示しています。

要約(オリジナル)

Recently, the development of pre-trained vision language foundation models (VLFMs) has led to remarkable performance in many tasks. However, these models tend to have strong single-image understanding capability but lack the ability to understand multiple images. Therefore, they cannot be directly applied to cope with image change understanding (ICU), which requires models to capture actual changes between multiple images and describe them in language. In this paper, we discover that existing VLFMs perform poorly when applied directly to ICU because of the following problems: (1) VLFMs generally learn the global representation of a single image, while ICU requires capturing nuances between multiple images. (2) The ICU performance of VLFMs is significantly affected by viewpoint variations, which is caused by the altered relationships between objects when viewpoint changes. To address these problems, we propose a Viewpoint Integration and Registration method. Concretely, we introduce a fused adapter image encoder that fine-tunes pre-trained encoders by inserting designed trainable adapters and fused adapters, to effectively capture nuances between image pairs. Additionally, a viewpoint registration flow and a semantic emphasizing module are designed to reduce the performance degradation caused by viewpoint variations in the visual and semantic space, respectively. Experimental results on CLEVR-Change and Spot-the-Diff demonstrate that our method achieves state-of-the-art performance in all metrics.

arxiv情報

著者 Xiaonan Lu,Jianlong Yuan,Ruigang Niu,Yuan Hu,Fan Wang
発行日 2023-09-15 17:41:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク