VGDiffZero: Text-to-image Diffusion Models Can Be Zero-shot Visual Grounders

要約

大規模なテキストから画像への拡散モデルは、事前トレーニングによる強力な視覚と言語の調整を活用することにより、生成タスクに対して優れた機能を示しています。
ただし、ほとんどの視覚言語識別タスクでは、そのような調整を取得するには、慎重にラベル付けされたデータセットに対する広範な微調整が必​​要であり、時間とコンピューティング リソースに多大なコストがかかります。
この研究では、微調整や追加のトレーニング データセットを使用せずに、視覚的グラウンディングという困難な識別タスクに、事前トレーニングされた生成拡散モデルを直接適用することを検討します。
具体的には、テキストから画像への拡散モデルに基づいた、シンプルかつ効果的なゼロショットのビジュアルグラウンディングフレームワークである VGDiffZero を提案します。
また、個別の提案ごとにグローバルとローカルの両方のコンテキストを考慮して、包括的な地域スコアリング方法を設計します。
RefCOCO、RefCOCO+、および RefCOCOg に関する広範な実験により、VGDiffZero がゼロショット ビジュアル グラウンディングで強力なパフォーマンスを達成することが示されています。
私たちのコードは https://github.com/xuyang-liu16/VGDiffZero で入手できます。

要約(オリジナル)

Large-scale text-to-image diffusion models have shown impressive capabilities for generative tasks by leveraging strong vision-language alignment from pre-training. However, most vision-language discriminative tasks require extensive fine-tuning on carefully-labeled datasets to acquire such alignment, with great cost in time and computing resources. In this work, we explore directly applying a pre-trained generative diffusion model to the challenging discriminative task of visual grounding without any fine-tuning and additional training dataset. Specifically, we propose VGDiffZero, a simple yet effective zero-shot visual grounding framework based on text-to-image diffusion models. We also design a comprehensive region-scoring method considering both global and local contexts of each isolated proposal. Extensive experiments on RefCOCO, RefCOCO+, and RefCOCOg show that VGDiffZero achieves strong performance on zero-shot visual grounding. Our code is available at https://github.com/xuyang-liu16/VGDiffZero.

arxiv情報

著者 Xuyang Liu,Siteng Huang,Yachen Kang,Honggang Chen,Donglin Wang
発行日 2024-01-23 15:51:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク