要約
視覚言語モデル (VLM) の最近の進歩により、顔年齢推定や画質評価などの定量的な概念を必要とする下流タスクが大幅に進歩し、VLM が画像のランキングや検索などのアプリケーションを探索できるようになりました。
しかし、既存の研究は通常、単一の画像に基づく推論に焦点を当てており、テキストによる指示に大きく依存しているため、複数の画像から包括的な理解を得る能力が制限されています。
これに対処するために、CLIP モデルをランク付け学習タスクに再構築し、テキストガイドによる画像ランク付けのために CLIP を強化する軽量アダプターを導入する、効果的かつ効率的なアプローチを提案します。
具体的には、私たちのアプローチには、ランキングを目的とした新しい命令に適応するための学習可能なプロンプトと、画像ランキングにおける追加の監視のためのテキスト条件付きの視覚的な違いを活用した、ランキングを意識した注意を伴う補助分岐が組み込まれています。
当社のランキング認識アダプターは、さまざまなタスクで常に微調整された CLIP よりも優れたパフォーマンスを発揮し、顔年齢推定や画質評価などの特定のタスク用に設計された最先端のモデルと比較して、競争力のある結果を達成します。
全体として、私たちのアプローチは、単一の命令で画像をランク付けすることに主に焦点を当てており、これにより、個々のタスクに合わせた膨大なテキスト プロンプトの必要性を回避し、画像間の視覚的な違いから学習する自然かつ一般的な方法が提供されます。
コードはhttps://github.com/uynaes/RankingAwareCLIPから入手できます。
要約(オリジナル)
Recent advances in vision-language models (VLMs) have made significant progress in downstream tasks that require quantitative concepts such as facial age estimation and image quality assessment, enabling VLMs to explore applications like image ranking and retrieval. However, existing studies typically focus on the reasoning based on a single image and heavily depend on text prompting, limiting their ability to learn comprehensive understanding from multiple images. To address this, we propose an effective yet efficient approach that reframes the CLIP model into a learning-to-rank task and introduces a lightweight adapter to augment CLIP for text-guided image ranking. Specifically, our approach incorporates learnable prompts to adapt to new instructions for ranking purposes and an auxiliary branch with ranking-aware attention, leveraging text-conditioned visual differences for additional supervision in image ranking. Our ranking-aware adapter consistently outperforms fine-tuned CLIPs on various tasks and achieves competitive results compared to state-of-the-art models designed for specific tasks like facial age estimation and image quality assessment. Overall, our approach primarily focuses on ranking images with a single instruction, which provides a natural and generalized way of learning from visual differences across images, bypassing the need for extensive text prompts tailored to individual tasks. Code is available: https://github.com/uynaes/RankingAwareCLIP.
arxiv情報
著者 | Wei-Hsiang Yu,Yen-Yu Lin,Ming-Hsuan Yang,Yi-Hsuan Tsai |
発行日 | 2024-12-09 18:51:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google