Bayesian-guided Label Mapping for Visual Reprogramming

要約

ビジュアル再プログラミング (VR) は、ラベル (つまり、下流ラベル) が、事前学習モデルに関連付けられたラベル (つまり、事前学習ラベル) とまったく異なる可能性がある下流タスクを解決するために入力または出力インターフェイスを適応させることにより、事前学習済みビジョン モデルの固有機能を活用します。

出力インターフェイスを適応させる場合、ラベル マッピング メソッドは、2 セットのラベル間に勾配のない 1 対 1 の対応を確立することにより、事前トレーニングされたラベルを下流のラベルに変換します。
ただし、この論文では、1 対 1 マッピングでは、事前トレーニングされたラベルと下流ラベルの間の複雑な関係が見落とされる可能性があることを明らかにします。
この観察に基づいて、ベイジアンガイド付きラベル マッピング (BLM) 方法を提案します。
BLM は、反復的に更新される確率的ラベル マッピング行列を構築します。各要素は、事前学習済みラベルと下流ラベルの間のペア関係を定量化します。
構築された行列への値の割り当ては、下流ラベルと下流サンプルの事前トレーニング済みモデルによって予測されたラベルの同時分布を考慮したベイジアン条件付き確率によって導かれます。
事前トレーニング済み視覚モデル (ResNeXt など) と視覚言語モデル (CLIP など) の両方で行われた実験では、既存のラベル マッピング手法よりも BLM のパフォーマンスが優れていることが実証されました。
BLM の成功は、VR の有効性を理解して分析するための確率的なレンズも提供します。
私たちのコードは https://github.com/tmlr-group/BayesianLM で入手できます。

要約(オリジナル)

Visual reprogramming (VR) leverages the intrinsic capabilities of pretrained vision models by adapting their input or output interfaces to solve downstream tasks whose labels (i.e., downstream labels) might be totally different from the labels associated with the pretrained models (i.e., pretrained labels). When adapting the output interface, label mapping methods transform the pretrained labels to downstream labels by establishing a gradient-free one-to-one correspondence between the two sets of labels. However, in this paper, we reveal that one-to-one mappings may overlook the complex relationship between pretrained and downstream labels. Motivated by this observation, we propose a Bayesian-guided Label Mapping (BLM) method. BLM constructs an iteratively-updated probabilistic label mapping matrix, with each element quantifying a pairwise relationship between pretrained and downstream labels. The assignment of values to the constructed matrix is guided by Bayesian conditional probability, considering the joint distribution of the downstream labels and the labels predicted by the pretrained model on downstream samples. Experiments conducted on both pretrained vision models (e.g., ResNeXt) and vision-language models (e.g., CLIP) demonstrate the superior performance of BLM over existing label mapping methods. The success of BLM also offers a probabilistic lens through which to understand and analyze the effectiveness of VR. Our code is available at https://github.com/tmlr-group/BayesianLM.

arxiv情報

著者 Chengyi Cai,Zesheng Ye,Lei Feng,Jianzhong Qi,Feng Liu
発行日 2024-10-31 15:20:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク