要約
チャットベースの言語モデルは役に立つように設計されていますが、すべてのユーザー要求に従う必要はありません。
既存の作業のほとんどは主に「安全でない」クエリの拒否に焦点を当てていますが、私たちは非準拠の範囲を拡大する必要があると主張しています。
いつ、どのようにモデルがユーザーのリクエストに従わないべきかを説明する、コンテキスト不遵守の包括的な分類法を導入します。
私たちの分類は、不完全、サポートされていない、不確定、人間味のあるリクエスト (安全でないリクエストに加えて) など、幅広いカテゴリに及びます。
言語モデルの不準拠機能をテストするために、この分類法を使用して 1000 の不準拠プロンプトの新しい評価スイートを開発します。
ほとんどの既存モデルは、これまで十分に研究されていなかった特定のカテゴリで非常に高い準拠率を示しており、GPT-4 のようなモデルは 30% ものリクエストに誤って準拠していることがわかりました。
これらのギャップに対処するために、合成的に生成されたリクエストと予想される非準拠の応答のトレーニング セットを使用して、さまざまなトレーニング戦略を検討します。
私たちの実験では、命令調整モデルを直接微調整すると過剰拒否と一般的な機能の低下の両方につながる可能性がある一方で、低ランク アダプターのようなパラメーター効率の良い方法を使用すると、適切な不遵守とその他の機能の間で適切なバランスを取るのに役立つことが実証されました。
要約(オリジナル)
Chat-based language models are designed to be helpful, yet they should not comply with every user request. While most existing work primarily focuses on refusal of ‘unsafe’ queries, we posit that the scope of noncompliance should be broadened. We introduce a comprehensive taxonomy of contextual noncompliance describing when and how models should not comply with user requests. Our taxonomy spans a wide range of categories including incomplete, unsupported, indeterminate, and humanizing requests (in addition to unsafe requests). To test noncompliance capabilities of language models, we use this taxonomy to develop a new evaluation suite of 1000 noncompliance prompts. We find that most existing models show significantly high compliance rates in certain previously understudied categories with models like GPT-4 incorrectly complying with as many as 30% of requests. To address these gaps, we explore different training strategies using a synthetically-generated training set of requests and expected noncompliant responses. Our experiments demonstrate that while direct finetuning of instruction-tuned models can lead to both over-refusal and a decline in general capabilities, using parameter efficient methods like low rank adapters helps to strike a good balance between appropriate noncompliance and other capabilities.
arxiv情報
著者 | Faeze Brahman,Sachin Kumar,Vidhisha Balachandran,Pradeep Dasigi,Valentina Pyatkin,Abhilasha Ravichander,Sarah Wiegreffe,Nouha Dziri,Khyathi Chandu,Jack Hessel,Yulia Tsvetkov,Noah A. Smith,Yejin Choi,Hannaneh Hajishirzi |
発行日 | 2024-11-22 17:48:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google