要約
大規模ビジョン言語事前トレーニング (VLP) モデル (CLIP など) は、ゼロショット設定でさまざまなアプリケーションに適用できるため、その多用途性で知られています。
ただし、これらのモデルが特定のドメインで使用される場合、ドメインのギャップやトレーニング データ内のこれらのドメインの過小表現により、パフォーマンスが低下することがよくあります。
人間がアノテーションを付けたラベルを使用してカスタム データセットの VLP モデルを微調整することでこの問題に対処できますが、小規模なデータセット (例: 100,000 サンプル) にアノテーションを付けるのは費用がかかる作業となる可能性があり、タスクが複雑な場合は専門のアノテーターが必要になることがよくあります。
これらの課題に対処するために、私たちは LatteCLIP を提案します。LatteCLIP は、人間による注釈に依存せず、カスタム ドメイン内の既知のクラス名による分類に基づいて CLIP モデルを微調整するための教師なし手法です。
私たちの方法では、大規模マルチモーダル モデル (LMM) を利用して、個々の画像と画像のグループの両方について表現力豊かなテキストの説明を生成します。
これらは、カスタム ドメインでの微調整プロセスをガイドするための追加のコンテキスト情報を提供します。
LMM で生成された記述は幻覚や詳細の欠落を招きやすいため、有用な情報のみを抽出してトレーニングを安定させるための新しい戦略を導入します。
具体的には、ノイズの多い生成テキストと二重擬似ラベルから、クラスごとの豊富なプロトタイプ表現を学習します。
10 のドメイン固有のデータセットに対する実験では、LatteCLIP が事前トレーニング済みのゼロショット手法よりもトップ 1 精度で平均 +4.74 ポイント向上し、その他の最先端の教師なし手法よりも +3.45 ポイント優れていることがわかりました。
要約(オリジナル)
Large-scale vision-language pre-trained (VLP) models (e.g., CLIP) are renowned for their versatility, as they can be applied to diverse applications in a zero-shot setup. However, when these models are used in specific domains, their performance often falls short due to domain gaps or the under-representation of these domains in the training data. While fine-tuning VLP models on custom datasets with human-annotated labels can address this issue, annotating even a small-scale dataset (e.g., 100k samples) can be an expensive endeavor, often requiring expert annotators if the task is complex. To address these challenges, we propose LatteCLIP, an unsupervised method for fine-tuning CLIP models on classification with known class names in custom domains, without relying on human annotations. Our method leverages Large Multimodal Models (LMMs) to generate expressive textual descriptions for both individual images and groups of images. These provide additional contextual information to guide the fine-tuning process in the custom domains. Since LMM-generated descriptions are prone to hallucination or missing details, we introduce a novel strategy to distill only the useful information and stabilize the training. Specifically, we learn rich per-class prototype representations from noisy generated texts and dual pseudo-labels. Our experiments on 10 domain-specific datasets show that LatteCLIP outperforms pre-trained zero-shot methods by an average improvement of +4.74 points in top-1 accuracy and other state-of-the-art unsupervised methods by +3.45 points.
arxiv情報
著者 | Anh-Quan Cao,Maximilian Jaritz,Matthieu Guillaumin,Raoul de Charette,Loris Bazzani |
発行日 | 2024-10-10 17:59:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google