CLIP-VG: Self-paced Curriculum Adapting of CLIP via Exploiting Pseudo-Language Labels for Visual Grounding

要約

ビジュアル グランディング (VG) とは、特定の画像内の表現によって記述される領域を特定することを指します。これは、視覚言語分野における重要なトピックです。
ラベル付きデータへの依存を軽減するために、既存の教師なし手法では、タスクに関係のない疑似ラベルを使用して領域の位置を特定しようとします。
ただし、擬似ラベルの大部分はノイズが多く、言語分類では多様性が不足しています。
V-L 事前学習の進歩に触発されて、下流の接地タスクで教師なし転移学習を実現するために VLP モデルを利用することを検討します。
そこで、我々は、VG問題を解決するために擬似言語ラベルを利用することにより、CLIPの自己ペースカリキュラムを適応させることができる新しい方法であるCLIP-VGを提案します。
効率的なモデル構造を精緻化することにより、まず教師なし VG 向けの単一ソースおよびマルチソースのカリキュラム適応方法を提案し、より信頼性の高いクロスモーダル擬似ラベルを段階的にサンプリングして最適なモデルを取得し、暗黙的知識の活用とノイズ除去を実現します。
私たちの手法は、単一ソースシナリオとマルチソースシナリオの両方で既存の最先端の教師なし VG 手法 Pseudo-Q を大幅に上回ります(RefCOCO/+ では 6.78% ~ 10.67%、11.39% ~ 24.87%)。
/g データセットは、既存の弱く監視されたメソッドよりも優れたパフォーマンスを発揮します。
コードとモデルは \url{https://github.com/linhuixiao/CLIP-VG} でリリースされます。

要約(オリジナル)

Visual Grounding (VG) refers to locating a region described by expressions in a specific image, which is a critical topic in vision-language fields. To alleviate the dependence on labeled data, existing unsupervised methods try to locate regions using task-unrelated pseudo-labels. However, a large proportion of pseudo-labels are noisy and diversity scarcity in language taxonomy. Inspired by the advances in V-L pretraining, we consider utilizing the VLP models to realize unsupervised transfer learning in downstream grounding task. Thus, we propose CLIP-VG, a novel method that can conduct self-paced curriculum adapting of CLIP via exploiting pseudo-language labels to solve VG problem. By elaborating an efficient model structure, we first propose a single-source and multi-source curriculum adapting method for unsupervised VG to progressively sample more reliable cross-modal pseudo-labels to obtain the optimal model, thus achieving implicit knowledge exploiting and denoising. Our method outperforms the existing state-of-the-art unsupervised VG method Pseudo-Q in both single-source and multi-source scenarios with a large margin, i.e., 6.78%~10.67% and 11.39%~24.87% on RefCOCO/+/g datasets, even outperforms existing weakly supervised methods. The code and models will be released at \url{https://github.com/linhuixiao/CLIP-VG}.

arxiv情報

著者 Linhui Xiao,Xiaoshan Yang,Fang Peng,Ming Yan,Yaowei Wang,Changsheng Xu
発行日 2023-05-15 14:42:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク