Large Language Models Sometimes Generate Purely Negatively-Reinforced Text

要約

敵対的トレーニングを使用する場合、最もひどい失敗に対してトレーニングするのが一般的です。
ただし、これは、機密情報 (漏洩したパスワードやセキュリティの脆弱性など) を含むサンプルをトレーニング データとして使用することを意味する可能性があります。
勾配降下法でトレーニングされた言語モデルは、可能な限り低い報酬に関連付けられた例にのみ存在するテキスト スニペットを決して生成しないと仮定する人もいるかもしれません。
この論文では、この仮定が間違っていることを示します。状況によっては、大規模な言語モデルがそのような否定的に強化された例から学習することがあります。
モデルがこれらのパスワードを出力しないようにインセンティブが与えられている例では、これらのパスワードを示すだけであるにもかかわらず、Pythia-160M が確率よりわずかに高い確率でパスワードを生成できるようにする特定のトレーニング設定を紹介します。
私たちのコードは https://github.com/FabienRoger/Learning-From-Negative-Examples で入手できます。

要約(オリジナル)

When using adversarial training, it is common practice to train against the most egregious failures. However, this might imply using examples with sensitive information (such as leaked passwords or security vulnerabilities) as training data. One might assume that language models trained with gradient descent never generate text snippets which were only present in examples associated with the lowest possible reward. In this paper, we show that this assumption is wrong: in some situations, large language models do learn from such negatively-reinforced examples. We present a specific training setup that enables Pythia-160M to generate passwords with a probability slightly greater than chance, despite only showing it these passwords on examples where the model is incentivized to not output these passwords. Our code is available at https://github.com/FabienRoger/Learning-From-Negative-Examples

arxiv情報

著者 Fabien Roger
発行日 2023-06-13 06:40:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク