CASE-Bench: Context-Aware SafEty Benchmark for Large Language Models

要約

大規模な言語モデル(LLM)を人間の価値観に合わせて、安全な展開と広範な採用には不可欠です。
現在のLLM安全ベンチマークは、多くの場合、個々の問題のあるクエリの拒否のみに焦点を当てています。これは、ユーザーエクスペリエンスを減らす安全なコンテキストの下でクエリが発生し、望ましくないクエリの拒否を引き起こす可能性のあるコンテキストの重要性を見下ろします。
このギャップに対処するには、コンテキストをLLMSの安全評価に統合するコンテキスト対応の安全ベンチマークであるケースベンチを紹介します。
ケースベンチは、文脈的整合性理論に基づいて、明確で正式に説明されたコンテキストを分類されたクエリに割り当てます。
さらに、主に少数のアノテーターからの過半数の投票に依存していた以前の研究とは対照的に、電力分析に基づいた実験条件間の統計的に有意な差の検出を確保するために必要な十分な数のアノテーターを募集しました。
さまざまなオープンソースおよび商業LLMのケースベンチを使用した広範な分析は、安全評価におけるコンテキストの必要性を強調し、人間の判断に対するコンテキストの実質的かつ重要な影響を明らかにしています(ZテストからのP <0.0001)。 また、特に安全なコンテキスト内の商業モデルで、人間の判断とLLM応答の間の顕著な不一致を特定します。

要約(オリジナル)

Aligning large language models (LLMs) with human values is essential for their safe deployment and widespread adoption. Current LLM safety benchmarks often focus solely on the refusal of individual problematic queries, which overlooks the importance of the context where the query occurs and may cause undesired refusal of queries under safe contexts that diminish user experience. Addressing this gap, we introduce CASE-Bench, a Context-Aware SafEty Benchmark that integrates context into safety assessments of LLMs. CASE-Bench assigns distinct, formally described contexts to categorized queries based on Contextual Integrity theory. Additionally, in contrast to previous studies which mainly rely on majority voting from just a few annotators, we recruited a sufficient number of annotators necessary to ensure the detection of statistically significant differences among the experimental conditions based on power analysis. Our extensive analysis using CASE-Bench on various open-source and commercial LLMs reveals a substantial and significant influence of context on human judgments (p<0.0001 from a z-test), underscoring the necessity of context in safety evaluations. We also identify notable mismatches between human judgments and LLM responses, particularly in commercial models within safe contexts.

arxiv情報

著者 Guangzhi Sun,Xiao Zhan,Shutong Feng,Philip C. Woodland,Jose Such
発行日 2025-02-07 10:23:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク