要約
適切な保護策がなければ、大規模な言語モデルは悪意のある指示に従い、有害なコンテンツを生成してしまいます。
これにより、モデルを有益かつ無害なものにすることを目的とした、レッドチームや大規模なフィードバック学習などの安全性への取り組みが促進されます。
ただし、無害であるためにはモデルが安全でないプロンプトに従うことを拒否する必要があり、役に立たないため、これら 2 つの目的の間には緊張関係があります。
最近の事例証拠によると、一部のモデルはバランスが悪く、明らかに安全なプロンプトであっても、安全でないプロンプトと同様の言葉を使用したり、デリケートなトピックに言及した場合には拒否される可能性があります。
このペーパーでは、このような誇張された安全動作を構造的かつ体系的な方法で特定するための XSTest と呼ばれる新しいテスト スイートを紹介します。
現在の形式では、XSTest は 10 種類のプロンプトにわたる 200 の安全なプロンプトで構成されており、適切に調整されたモデルが準拠を拒否すべきではありません。
XSTest の作成と構成について説明し、テスト スイートを使用して、最近リリースされた最先端の言語モデルにおける系統的な障害モードを強調します。
要約(オリジナル)
Without proper safeguards, large language models will readily follow malicious instructions and generate toxic content. This motivates safety efforts such as red-teaming and large-scale feedback learning, which aim to make models both helpful and harmless. However, there is a tension between these two objectives, since harmlessness requires models to refuse complying with unsafe prompts, and thus not be helpful. Recent anecdotal evidence suggests that some models may have struck a poor balance, so that even clearly safe prompts are refused if they use similar language to unsafe prompts or mention sensitive topics. In this paper, we introduce a new test suite called XSTest to identify such eXaggerated Safety behaviours in a structured and systematic way. In its current form, XSTest comprises 200 safe prompts across ten prompt types that well-calibrated models should not refuse to comply with. We describe XSTest’s creation and composition, and use the test suite to highlight systematic failure modes in a recently-released state-of-the-art language model.
arxiv情報
著者 | Paul Röttger,Hannah Rose Kirk,Bertie Vidgen,Giuseppe Attanasio,Federico Bianchi,Dirk Hovy |
発行日 | 2023-08-02 16:30:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google