要約
おべっかは、人間のユーザーの見解が客観的に正しくない場合でも、その見解に従うようにモデルが応答を調整する、望ましくない動作です (たとえば、ユーザーがリベラルであることを明らかにした後、リベラルな見解を適応させる)。
この論文では、言語モデルにおけるお調子者の蔓延を研究し、この行動を軽減するための単純な合成データ介入を提案します。
まず、正解のない発言(政治など)についてモデルに意見を求める一連の 3 つのお調子者タスク (Perez et al., 2022) では、モデルのスケーリングと命令チューニングの両方が PaLM のお調子者を大幅に増加させることが観察されました。
最大 540B のパラメータをモデル化します。
第二に、客観的に間違っている単純な加算ステートメントにおべっかの評価を拡張し、これらのステートメントが間違っていることを知っているにもかかわらず、ユーザーが同様に同意する場合、言語モデルは依然としてそれらのステートメントに同意することがわかります。
おべっかを減らすために、公開された NLP タスクを利用し、これらのタスクに対するユーザーの意見に対してモデルが堅牢になるように促す、単純な合成データ介入を提示します。
これらのデータを軽量の微調整ステップに追加すると、プロンプトを押し続けた場合のおべっかな動作を大幅に減らすことができます。
介入用の合成データを生成するコードは、https://github.com/google/sycophancy-intervention で見つけることができます。
要約(オリジナル)
Sycophancy is an undesirable behavior where models tailor their responses to follow a human user’s view even when that view is not objectively correct (e.g., adapting liberal views once a user reveals that they are liberal). In this paper, we study the prevalence of sycophancy in language models and propose a simple synthetic-data intervention to reduce this behavior. First, on a set of three sycophancy tasks (Perez et al., 2022) where models are asked for an opinion on statements with no correct answers (e.g., politics), we observe that both model scaling and instruction tuning significantly increase sycophancy for PaLM models up to 540B parameters. Second, we extend sycophancy evaluations to simple addition statements that are objectively incorrect, finding that despite knowing that these statements are wrong, language models will still agree with them if the user does as well. To reduce sycophancy, we present a straightforward synthetic-data intervention that takes public NLP tasks and encourages models to be robust to user opinions on these tasks. Adding these data in a lightweight finetuning step can significantly reduce sycophantic behavior on held-out prompts. Code for generating synthetic data for intervention can be found at https://github.com/google/sycophancy-intervention.
arxiv情報
著者 | Jerry Wei,Da Huang,Yifeng Lu,Denny Zhou,Quoc V. Le |
発行日 | 2023-08-07 23:48:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google