要約
大規模言語モデル (LLM) では、悪意のある出力を防ぐために慎重な安全性の調整が必要です。
重要な研究は有害なコンテンツの生成を軽減することに重点を置いていますが、安全性の向上には過剰な拒否という副作用が伴うことが多く、LLM が無害なプロンプトを拒否して役に立たなくなる可能性があります。
過剰拒否の問題は経験的に観察されていますが、有害に見えても無害であるプロンプトを作成するのが難しいため、体系的な測定は困難です。
この研究は、「一見有害なプロンプト」(LLM によって拒否される可能性が高い無害なプロンプト)の大規模なセットを自動的に生成するための新しい方法を提案します。
この手法を活用して、最初の大規模な過剰拒否ベンチマークである OR-Bench を導入します。
OR-Bench は、10 の一般的な拒否カテゴリにわたる 80,000 の有害と思われるプロンプト、最先端の LLM にとってさえ困難な約 1,000 のハード プロンプトのサブセット、および無差別応答を防ぐための追加の 600 の有害なプロンプトで構成されています。
次に、8 つのモデルファミリーにわたる 25 の人気のある LLM の過剰拒否を測定するための包括的な調査を実施します。
データセットは https://huggingface.co/datasets/bench-llm/OR-Bench で入手でき、対応するデモは https://huggingface.co/spaces/bench-llm/or-bench で見つけることができます。
このベンチマークが、コミュニティによるより安全性を考慮したモデルの開発に役立つことを願っています。
要約(オリジナル)
Large Language Models (LLMs) require careful safety alignment to prevent malicious outputs. While significant research focuses on mitigating harmful content generation, the enhanced safety often come with the side effect of over-refusal, where the LLMs may reject innocuous prompts and become less helpful. Although the issue of over-refusal has been empirically observed, a systematic measurement is challenging due to the difficulty of crafting prompts that appear harmful but are benign. This study proposes a novel method for automatically generating large-scale sets of “seemingly toxic prompts” (benign prompts likely rejected by LLMs). Leveraging this technique, we introduce OR-Bench, the first large-scale over-refusal benchmark. OR-Bench comprises 80,000 seemingly toxic prompts across 10 common rejection categories, a subset of around 1,000 hard prompts that are challenging even for state-of-the-art LLMs, and an additional 600 toxic prompts to prevent indiscriminate responses. We then conduct a comprehensive study to measure the over-refusal of 25 popular LLMs across 8 model families. Our datasets are available at https://huggingface.co/datasets/bench-llm/OR-Bench and the corresponding demo can be found at https://huggingface.co/spaces/bench-llm/or-bench. We hope this benchmark can help the community develop better safety aligned models.
arxiv情報
著者 | Justin Cui,Wei-Lin Chiang,Ion Stoica,Cho-Jui Hsieh |
発行日 | 2024-05-31 15:44:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google