要約
言語モデルの機能は、モデルのサイズとトレーニング データをスケーリングすることで予想通り向上します。
これに動機付けられて、ますます大規模な言語モデルがトレーニングされ、一連の優れた機能が生まれています。
しかし、これらのモデルは、モデルをハイジャックして望ましくない動作を実行する「脱獄」など、敵対的なプロンプトに対して脆弱であり、悪用の重大なリスクをもたらします。
これまでの研究では、コンピュータ ビジョン モデルはモデルとデータのスケーリングによってより堅牢になることが示されており、言語モデルの堅牢性もスケールによって向上するのか?という疑問が生じています。
私たちはこの問題を経験的に研究し、大規模なモデルは敵対的トレーニングに対して大幅によく反応しますが、明示的な防御がない場合、モデルの規模からの利点はほとんど、またはまったくないことを発見しました。
要約(オリジナル)
Language model capabilities predictably improve from scaling a model’s size and training data. Motivated by this, increasingly large language models have been trained, yielding an array of impressive capabilities. Yet these models are vulnerable to adversarial prompts, such as ‘jailbreaks’ that hijack models to perform undesired behaviors, posing a significant risk of misuse. Prior work indicates that computer vision models become more robust with model and data scaling, raising the question: does language model robustness also improve with scale? We study this question empirically, finding that larger models respond substantially better to adversarial training, but there is little to no benefit from model scale in the absence of explicit defenses.
arxiv情報
著者 | Nikolaus Howe,Michał Zajac,Ian McKenzie,Oskar Hollinsworth,Tom Tseng,Pierre-Luc Bacon,Adam Gleave |
発行日 | 2024-07-26 11:51:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google