Debiased Fine-Tuning for Vision-language Models by Prompt Regularization

要約

タイトル:Prompt正則化によるバイアスのないFine-Tuning視覚言語モデル

要約:

– Prompt Regularization(ProReg)と呼ばれる、大規模な視覚言語事前学習モデルをダウンストリームタスクに対してFine-Tuningするための新しいパラダイムを提案する。
– ProRegは、従来のFine-Tuningがダウンストリームタスクのデータに過剰にフィットする問題に対応し、Fine-Tuningを規制するために事前学習されたモデルにプロンプトを提示することを利用する。
– モチベーションは、大規模なモデルに「[クラス]の写真」などのプロンプトを提示することで、フィルリンの答えが事前学習された百科事典の知識にのみ依存し、バイアスのかかったタスクデータ分布には依存しないようにすることである。
– 具体的には、Fine-Tuning中のトレーニングサンプルの予測結果を取得して、プロンプト予測のクルバック・ライブラー損失とグラウンドトゥルースラベルのクロスエントロピー損失を計算し、提案されたサンプルごとの適応的なトレードオフ重みと組み合わせて、事前学習済みとダウンストリームのドメイン間の転送を自動調整する。
– 多様な未知の配布において、ProRegは従来のFine-Tuning、ゼロショットのプロンプト、プロンプトチューニング、および他の最新の手法に比べ、一定の強力な性能を示す。

要約(オリジナル)

We present a new paradigm for fine-tuning large-scale visionlanguage pre-trained models on downstream task, dubbed Prompt Regularization (ProReg). Different from traditional fine-tuning which easily overfits to the downstream task data, ProReg uses the prediction by prompting the pretrained model to regularize the fine-tuning. The motivation is: by prompting the large model ‘a photo of a [CLASS]’, the fil-lin answer is only dependent on the pretraining encyclopedic knowledge while independent of the task data distribution, which is usually biased. Specifically, given a training sample prediction during fine-tuning, we first calculate its KullbackLeibler loss of the prompt prediction and Cross-Entropy loss of the ground-truth label, and then combine them with a proposed sample-wise adaptive trade-off weight, which automatically adjusts the transfer between the pretrained and downstream domains. On various out-of-distribution benchmarks, we show the consistently strong performance of ProReg compared with conventional fine-tuning, zero-shot prompt, prompt tuning, and other state-of-the-art methods.

arxiv情報

著者 Beier Zhu,Yulei Niu,Saeil Lee,Minhoe Hur,Hanwang Zhang
発行日 2023-03-31 07:05:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク