要約
クリップなどの既存のビジョン言語モデル(VLM)は、さまざまな下流タスクにわたってよく一般化する印象的な機能を示しています。
これらのモデルは、視覚情報とテキスト情報の相乗効果を活用して、画像やテキストに存在するコンテンツを統一された方法で理解し、推論できるようにします。
この記事では、実験データやいくつかの方法の技術的特性を含む、少数のショットの迅速な学習に基づいたクリップの簡単な概要を説明します。
このレビューの目的は、15のデータセットにわたって分類のための少数のショットトレーニングを通じて、一般化可能なクリップの調査を開始したばかりの研究者に参照を提供し、他の下流タスクの研究者によるこの分野の統合を促進することです。
要約(オリジナル)
Existing vision-language models (VLMs) such as CLIP have showcased an impressive capability to generalize well across various downstream tasks. These models leverage the synergy between visual and textual information, enabling them to understand and reason about the content present in images and text in a unified manner. This article provides a brief overview of CLIP based on few-shot prompt learning, including experimental data and technical characteristics of some methods. The purpose of this review is to provide a reference for researchers who have just started their research in generalizable prompting of CLIP through few-shot training for classification across 15 datasets and also to facilitate the integration of this field by researchers in other downstream tasks.
arxiv情報
著者 | Fangming Cui,Yonggang Zhang,Xuan Wang,Xule Wang,Liang Xiao |
発行日 | 2025-03-27 09:28:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google