Surfacing Biases in Large Language Models using Contrastive Input Decoding

要約

大規模な言語モデル(LM)が公正で堅牢かつ有用であることを保証するためには、入力に対するさまざまな変更がモデルの挙動にどのような影響を与えるかを理解することが必要である。しかし、オープンテキスト生成タスクの文脈では、このような評価は些細なことではありません。例えば、入力テキストと、そのテキストを摂動させた「対照的な」バージョンをモデルに導入する場合、次のトークンの予測における意味のある違いは、標準的なデコーディング戦略では明らかにならないかもしれない。このような背景から、我々はContrastive Input Decoding (CID)を提案する。これは、2つの入力に対してテキストを生成する復号アルゴリズムであり、一方の入力に対しては生成テキストがありそうだが、他方の入力に対してはありそうにないというものである。このように、対照的な世代は、2つの入力に対してLM出力がどのように異なるかという微妙な違いを、シンプルかつ解釈しやすい方法で強調することができる。我々はCIDを用いて、標準的なデコーディング戦略では検出が困難な文脈特有のバイアスを強調し、様々な入力摂動の効果を定量化することができる。

要約(オリジナル)

Ensuring that large language models (LMs) are fair, robust and useful requires an understanding of how different modifications to their inputs impact the model’s behaviour. In the context of open-text generation tasks, however, such an evaluation is not trivial. For example, when introducing a model with an input text and a perturbed, ‘contrastive’ version of it, meaningful differences in the next-token predictions may not be revealed with standard decoding strategies. With this motivation in mind, we propose Contrastive Input Decoding (CID): a decoding algorithm to generate text given two inputs, where the generated text is likely given one input but unlikely given the other. In this way, the contrastive generations can highlight potentially subtle differences in how the LM output differs for the two inputs in a simple and interpretable manner. We use CID to highlight context-specific biases that are hard to detect with standard decoding strategies and quantify the effect of different input perturbations.

arxiv情報

著者 Gal Yona,Or Honovich,Itay Laish,Roee Aharoni
発行日 2023-05-12 11:09:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CY, cs.LG パーマリンク