要約
視覚言語モデルを使用したトランスダクティブ ゼロショット学習では、データセット内の画像間の類似性を活用して、帰納的設定と比較してより優れた分類精度を実現します。
しかし、この文脈における言語空間の構造を調査した研究はほとんどありません。
我々は、言語空間と視覚空間における共同伝達のための言語モデルからの監視を組み込んだ新しい技術であるGTA-CLIPを提案します。
私たちのアプローチは反復的であり、次の 3 つのステップで構成されます: (i) 言語モデルをクエリすることによって属性空間を段階的に探索する、(ii) 属性拡張された変換推論手順、および (iii) 推論されたラベルに基づいて言語および視覚エンコーダを微調整する
データセット内で。
CLIP エンコーダを使用した実験を通じて、GTA-CLIP が 12 のデータセットと 3 つのエンコーダにわたって、ゼロショット設定の CLIP とトランスダクティブ CLIP に対してそれぞれ平均 8.6% と 3.7% の平均パフォーマンス向上をもたらすことを実証しました。
数ショット設定でも同様の改善が見られます。
私たちは、各ステップの価値を実証し、変換学習によって反復的に視覚と言語空間がどのように進化するかを視覚化するアブレーション研究を紹介します。
要約(オリジナル)
Transductive zero-shot learning with vision-language models leverages image-image similarities within the dataset to achieve better classification accuracy compared to the inductive setting. However, there is little work that explores the structure of the language space in this context. We propose GTA-CLIP, a novel technique that incorporates supervision from language models for joint transduction in language and vision spaces. Our approach is iterative and consists of three steps: (i) incrementally exploring the attribute space by querying language models, (ii) an attribute-augmented transductive inference procedure, and (iii) fine-tuning the language and vision encoders based on inferred labels within the dataset. Through experiments with CLIP encoders, we demonstrate that GTA-CLIP, yields an average performance improvement of 8.6% and 3.7% across 12 datasets and 3 encoders, over CLIP and transductive CLIP respectively in the zero-shot setting. We also observe similar improvements in a few-shot setting. We present ablation studies that demonstrate the value of each step and visualize how the vision and language spaces evolve over iterations driven by the transductive learning.
arxiv情報
著者 | Oindrila Saha,Logan Lawrence,Grant Van Horn,Subhransu Maji |
発行日 | 2025-01-10 15:07:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google