Refusal Tokens: A Simple Way to Calibrate Refusals in Large Language Models

要約

安全で信頼性の高い言語モデルを構築するための重要な要素は、モデルが特定の指示に従うことや特定の質問に答えることを適切に拒否できるようにすることです。
たとえば、不適切な質問、違法行為を行うための指示、モデルの知識範囲を超えた情報を必要とするクエリなど、さまざまなカテゴリのユーザー クエリに対して拒否メッセージを出力するモデルが必要な場合があります。
このような質問への回答を拒否するエンジニアリング モデルは、個人がさまざまなカテゴリのクエリを拒否するためにモデルにさまざまなレベルの感度を示すことを望んでいたり、ユーザーごとに異なる拒否率を望んだりする可能性があるため、複雑になります。
現在のデフォルトのアプローチでは、目的の拒否率を達成するために、各カテゴリからの拒否メッセージの割合を変えて複数のモデルをトレーニングする必要がありますが、これには計算コストがかかり、拒否率に対する各ユーザーの希望の好みに合わせて新しいモデルをトレーニングする必要がある場合があります。
これらの課題に対処するために、トレーニング中にモデルの応答の前に追加される拒否トークン、各拒否カテゴリごとに 1 つのトークン、または単一の拒否トークンを提案します。
次に、モデルの拒否動作を制御するために、推論中に各カテゴリの拒否トークンを生成する確率を増減する方法を示します。
拒否トークンを使用すると、それ以上の微調整を必要とせずに、生成中に選択的に介入することによってのみ、単一モデルの拒否率を制御できます。

要約(オリジナル)

A key component of building safe and reliable language models is enabling the models to appropriately refuse to follow certain instructions or answer certain questions. We may want models to output refusal messages for various categories of user queries, for example, ill-posed questions, instructions for committing illegal acts, or queries which require information past the model’s knowledge horizon. Engineering models that refuse to answer such questions is complicated by the fact that an individual may want their model to exhibit varying levels of sensitivity for refusing queries of various categories, and different users may want different refusal rates. The current default approach involves training multiple models with varying proportions of refusal messages from each category to achieve the desired refusal rates, which is computationally expensive and may require training a new model to accommodate each user’s desired preference over refusal rates. To address these challenges, we propose refusal tokens, one such token for each refusal category or a single refusal token, which are prepended to the model’s responses during training. We then show how to increase or decrease the probability of generating the refusal token for each category during inference to steer the model’s refusal behavior. Refusal tokens enable controlling a single model’s refusal rates without the need of any further fine-tuning, but only by selectively intervening during generation.

arxiv情報

著者 Neel Jain,Aditya Shrivastava,Chenyang Zhu,Daben Liu,Alfy Samuel,Ashwinee Panda,Anoop Kumar,Micah Goldblum,Tom Goldstein
発行日 2024-12-09 18:40:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク