Label Propagation for Zero-shot Classification with Vision-Language Models

要約

視覚言語モデル (VLM) は、ゼロショット分類、つまりクラス名のリストのみが提供された場合の分類において優れたパフォーマンスを示しています。
このペーパーでは、ラベルのないデータが存在する場合のゼロショット分類のケースに取り組みます。
ラベルなしデータのグラフ構造を活用し、分類に測地線距離を利用するラベル伝播 (LP) に基づく方法である ZLaP を導入します。
LP をテキストと画像の両方の特徴を含むグラフに合わせて調整し、双対解とスパース化ステップに基づいて帰納推論を実行する効率的な方法をさらに提案します。
私たちは、14 の一般的なデータセットに対する手法の有効性を評価するために広範な実験を実行し、ZLaP が最新の関連研究よりも優れていることを示しました。
コード: https://github.com/vladan-stojnic/ZLaP

要約(オリジナル)

Vision-Language Models (VLMs) have demonstrated impressive performance on zero-shot classification, i.e. classification when provided merely with a list of class names. In this paper, we tackle the case of zero-shot classification in the presence of unlabeled data. We leverage the graph structure of the unlabeled data and introduce ZLaP, a method based on label propagation (LP) that utilizes geodesic distances for classification. We tailor LP to graphs containing both text and image features and further propose an efficient method for performing inductive inference based on a dual solution and a sparsification step. We perform extensive experiments to evaluate the effectiveness of our method on 14 common datasets and show that ZLaP outperforms the latest related works. Code: https://github.com/vladan-stojnic/ZLaP

arxiv情報

著者 Vladan Stojnić,Yannis Kalantidis,Giorgos Tolias
発行日 2024-04-05 12:58:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク