Zero-Shot Robustification of Zero-Shot Models

要約

ゼロショット推論は、追加のトレーニングを行わずに、下流の分類タスクに大規模な事前トレーニング済みモデルの使用を可能にする強力なパラダイムです。
ただし、これらのモデルは、パフォーマンスに影響を与える可能性がある継承されたバイアスに対して脆弱です。
従来のソリューションは微調整ですが、これでは、すぐに使用できるという事前トレーニング済みモデルの重要な利点が損なわれてしまいます。
私たちは、完全ゼロショット方式で事前トレーニング済みモデルの埋め込みの堅牢性を向上させる手法である RoboShot を提案します。
まず、言語モデル (LM) を使用して、タスクの説明から有用な洞察を取得します。
これらの洞察は埋め込まれ、監視なしで埋め込み内の有害なコンポーネントを削除したり有用なコンポーネントを強化したりするために使用されます。
理論的には、ゼロショット埋め込みのバイアスに対するシンプルで扱いやすいモデルを提供し、どのような条件下で私たちのアプローチがパフォーマンスを向上させることができるかを特徴付ける結果を与えます。
経験的に、9 つの画像および NLP 分類タスクでロボショットを評価したところ、最悪のグループ精度では平均 15.98% の改善が見られ、いくつかのゼロショット ベースラインにわたって全体の精度はわずかに低下しました。
さらに、ロボショットがさまざまな事前トレーニング済みおよび言語モデルと互換性があることを実証し、ゼロショット適応バリアントでパフォーマンスをさらに向上させる方法を提案します。

要約(オリジナル)

Zero-shot inference is a powerful paradigm that enables the use of large pretrained models for downstream classification tasks without further training. However, these models are vulnerable to inherited biases that can impact their performance. The traditional solution is fine-tuning, but this undermines the key advantage of pretrained models, which is their ability to be used out-of-the-box. We propose RoboShot, a method that improves the robustness of pretrained model embeddings in a fully zero-shot fashion. First, we use language models (LMs) to obtain useful insights from task descriptions. These insights are embedded and used to remove harmful and boost useful components in embeddings — without any supervision. Theoretically, we provide a simple and tractable model for biases in zero-shot embeddings and give a result characterizing under what conditions our approach can boost performance. Empirically, we evaluate RoboShot on nine image and NLP classification tasks and show an average improvement of 15.98% on worst group accuracy, with trivial decrease in overall accuracy over several zero-shot baselines. Additionally, we demonstrate that RoboShot is compatible with a variety of pretrained and language models and propose a way to further boost performance with a zero-shot adaptation variant.

arxiv情報

著者 Dyah Adila,Changho Shin,Linrong Cai,Frederic Sala
発行日 2024-02-12 17:15:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク