要約
基礎モデルの時代では、Clipは、テキストと視覚モダリティを共通の埋め込み空間に整列させるための強力なツールとして浮上しています。
ただし、クリップをトレーニングするために使用されるアラインメントの目的は、しばしばきめ細かいタスクの視覚的な特徴を下すことになります。
対照的に、Dino ExcelのようなSSL定められたモデルは、特殊なトレーニングパラダイムのために豊富な視覚的特徴を抽出することに拡張されています。
しかし、これらのSSLモデルには、追加のラベル付きデータに依存する追加の監視された線形プロービングステップが必要です。
このペーパーでは、自己監視学習モデル(DINO)の豊富な視覚的特徴を活用するラベルフリーのプロンプトチューニング方法と、無効な画像を使用してクリップベースの画像分類パフォーマンスを大幅に強化するために、大規模な言語モデル(LLM)の幅広いテキスト知識を提案します。
私たちのアプローチは、3つの重要なステップで展開されます。(1)LLMSからのクラス固有の説明を活用することにより、オブジェクトクラスをより正確に表す堅牢なテキスト機能の埋め込みを生成し、Clipのデフォルトの名前固有のプロンプトと比較して、より効果的なゼロショット分類を可能にします。
(2)次に、これらのテキスト埋め込みを使用して、擬似ラベルを生成して、LLM説明ベースのテキストエンベッディングとディノの視覚機能の補完的な強さを統合するアライメントモジュールをトレーニングします。
(3)最後に、訓練されたアライメントモジュールを使用して、Dino支援監督を介してClipのビジョンエンコーダーをプロンプトチューニングします。
この3段階のプロセスにより、視覚的およびテキストの最高の基礎モデルを活用できるため、最先端のラベルのない分類方法を上回る強力で効率的なアプローチが得られます。
特に、私たちのフレームワークであるNOLA(ラベルは添付されていません)は、11の多様な画像分類データセットで最先端のLafterよりも3.6%の平均絶対ゲインを達成しています。
私たちのコードとモデルは、https://github.com/fazliimam/nolaで見つけることができます。
要約(オリジナル)
In the era of foundation models, CLIP has emerged as a powerful tool for aligning text & visual modalities into a common embedding space. However, the alignment objective used to train CLIP often results in subpar visual features for fine-grained tasks. In contrast, SSL-pretrained models like DINO excel at extracting rich visual features due to their specialized training paradigm. Yet, these SSL models require an additional supervised linear probing step, which relies on fully labeled data which is often expensive and difficult to obtain at scale. In this paper, we propose a label-free prompt-tuning method that leverages the rich visual features of self-supervised learning models (DINO) and the broad textual knowledge of large language models (LLMs) to largely enhance CLIP-based image classification performance using unlabeled images. Our approach unfolds in three key steps: (1) We generate robust textual feature embeddings that more accurately represent object classes by leveraging class-specific descriptions from LLMs, enabling more effective zero-shot classification compared to CLIP’s default name-specific prompts. (2) These textual embeddings are then used to produce pseudo-labels to train an alignment module that integrates the complementary strengths of LLM description-based textual embeddings & DINO’s visual features. (3) Finally, we prompt-tune CLIP’s vision encoder through DINO-assisted supervision using the trained alignment module. This three-step process allows us to harness the best of visual & textual foundation models, resulting in a powerful and efficient approach that surpasses state-of-the-art label-free classification methods. Notably, our framework, NoLA (No Labels Attached), achieves an average absolute gain of 3.6% over the state-of-the-art LaFTer across 11 diverse image classification datasets. Our code & models can be found at https://github.com/fazliimam/NoLA.
arxiv情報
著者 | Mohamed Fazli Imam,Rufael Fedaku Marew,Jameel Hassan,Mustansar Fiaz,Alham Fikri Aji,Hisham Cholakkal |
発行日 | 2025-04-10 11:09:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google