R-Judge: Benchmarking Safety Risk Awareness for LLM Agents

要約

大規模言語モデル (LLM) は、現実世界のアプリケーション全体でタスクを自律的に完了する上で大きな可能性を示しています。
それにもかかわらず、これらの LLM エージェントは、対話型環境で動作するときに予期しない安全上のリスクをもたらします。
これまでのほとんどの研究では LLM によって生成されたコンテンツの安全性を中心とするのではなく、この研究では、多様な環境内での LLM エージェントの行動の安全性をベンチマークするという緊急のニーズに取り組んでいます。
エージェントの対話記録に基づいて安全リスクを判断する LLM の習熟度を評価するために作成されたベンチマークである R-Judge を紹介します。
R-Judge は 162 のエージェント インタラクション レコードで構成され、7 つのアプリケーション カテゴリと 10 のリスク タイプ間の 27 の主要なリスク シナリオを網羅しています。
注釈付きの安全リスクラベルと高品質のリスク説明により、安全性に関する人間の合意が組み込まれています。
R-Judge を利用して、エージェントのバックボーンとして一般的に使用されている 8 つの著名な LLM を総合的に評価します。
最もパフォーマンスの高いモデルである GPT-4 は、人間のスコアが 89.38% であるのに対し、72.29% を達成しており、LLM のリスク認識を高める余地がかなりあることが示されています。
特に、環境フィードバックとしてリスク記述を活用すると、モデルのパフォーマンスが大幅に向上し、顕著な安全リスク フィードバックの重要性が明らかになります。
さらに、安全性リスクの判断を支援する効果的な安全性分析手法のチェーンを設計し、将来の研究を促進するために詳細なケーススタディを実施します。
R-Judge は https://github.com/Lordog/R-Judge で公開されています。

要約(オリジナル)

Large language models (LLMs) have exhibited great potential in autonomously completing tasks across real-world applications. Despite this, these LLM agents introduce unexpected safety risks when operating in interactive environments. Instead of centering on LLM-generated content safety in most prior studies, this work addresses the imperative need for benchmarking the behavioral safety of LLM agents within diverse environments. We introduce R-Judge, a benchmark crafted to evaluate the proficiency of LLMs in judging safety risks given agent interaction records. R-Judge comprises 162 agent interaction records, encompassing 27 key risk scenarios among 7 application categories and 10 risk types. It incorporates human consensus on safety with annotated safety risk labels and high-quality risk descriptions. Utilizing R-Judge, we conduct a comprehensive evaluation of 8 prominent LLMs commonly employed as the backbone for agents. The best-performing model, GPT-4, achieves 72.29% in contrast to the human score of 89.38%, showing considerable room for enhancing the risk awareness of LLMs. Notably, leveraging risk descriptions as environment feedback significantly improves model performance, revealing the importance of salient safety risk feedback. Furthermore, we design an effective chain of safety analysis technique to help the judgment of safety risks and conduct an in-depth case study to facilitate future research. R-Judge is publicly available at https://github.com/Lordog/R-Judge.

arxiv情報

著者 Tongxin Yuan,Zhiwei He,Lingzhong Dong,Yiming Wang,Ruijie Zhao,Tian Xia,Lizhen Xu,Binglin Zhou,Fangqi Li,Zhuosheng Zhang,Rui Wang,Gongshen Liu
発行日 2024-01-18 14:40:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク