要約
ビジュアル グラウンディング (VG) は、視覚と言語の分野における重要なトピックであり、画像内の表現によって記述される特定の領域を特定することが含まれます。
手動でラベル付けされたデータへの依存を減らすために、擬似ラベルを使用して領域を特定するための教師なし視覚的根拠が開発されました。
ただし、既存の教師なし手法のパフォーマンスは擬似ラベルの品質に大きく依存しており、これらの手法は常に多様性が限られているという問題に直面します。
視覚と言語の事前訓練済みモデルを利用してグラウンディングの問題に対処し、擬似ラベルを合理的に利用するために、擬似言語ラベルを使用してCLIPを適応させた自分のペースでカリキュラムを実行できる新しい方法であるCLIP-VGを提案します。
。
私たちは、CLIP の視覚的接地への移行を実現するための、シンプルかつ効率的なエンドツーエンドのネットワーク アーキテクチャを提案します。
CLIPベースのアーキテクチャに基づいて、単一ソースおよびマルチソースのカリキュラム適応アルゴリズムをさらに提案します。これにより、最適なモデルを学習するためにより信頼性の高い擬似ラベルを段階的に見つけ、それによって擬似言語の信頼性と多様性のバランスを達成できます。
ラベル。
私たちの手法は、単一ソースと複数ソースの両方のシナリオにおいて、RefCOCO/+/g データセットで現在の最先端の教師なし手法を大幅に上回り、6.78$\%$ から 10.67$\% の範囲で改善されています。
$ と 11.39$\%$ ~ 14.87$\%$ です。
この結果は、既存の弱く監視された視覚的グラウンディング手法をも上回る結果をもたらしました。
さらに、私たちの方法は完全に監視された設定でも競争力があります。
コードとモデルは https://github.com/linhuixiao/CLIP-VG で入手できます。
要約(オリジナル)
Visual Grounding (VG) is a crucial topic in the field of vision and language, which involves locating a specific region described by expressions within an image. To reduce the reliance on manually labeled data, unsupervised visual grounding have been developed to locate regions using pseudo-labels. However, the performance of existing unsupervised methods is highly dependent on the quality of pseudo-labels and these methods always encounter issues with limited diversity. In order to utilize vision and language pre-trained models to address the grounding problem, and reasonably take advantage of pseudo-labels, we propose CLIP-VG, a novel method that can conduct self-paced curriculum adapting of CLIP with pseudo-language labels. We propose a simple yet efficient end-to-end network architecture to realize the transfer of CLIP to the visual grounding. Based on the CLIP-based architecture, we further propose single-source and multi-source curriculum adapting algorithms, which can progressively find more reliable pseudo-labels to learn an optimal model, thereby achieving a balance between reliability and diversity for the pseudo-language labels. Our method outperforms the current state-of-the-art unsupervised method by a significant margin on RefCOCO/+/g datasets in both single-source and multi-source scenarios, with improvements ranging from 6.78$\%$ to 10.67$\%$ and 11.39$\%$ to 14.87$\%$, respectively. The results even outperform existing weakly supervised visual grounding methods. Furthermore, our method is also competitive in fully supervised setting. The code and models are available at https://github.com/linhuixiao/CLIP-VG.
arxiv情報
著者 | Linhui Xiao,Xiaoshan Yang,Fang Peng,Ming Yan,Yaowei Wang,Changsheng Xu |
発行日 | 2024-11-19 14:52:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google