ShieldLM: Empowering LLMs as Aligned, Customizable and Explainable Safety Detectors

要約

大規模言語モデル (LLM) の安全性は近年ますます注目を集めていますが、LLM の応答内の安全性の問題を、整合性があり、カスタマイズ可能で説明可能な方法で検出するための包括的なアプローチがまだ不足しています。
このペーパーでは、人間の一般的な安全基準に準拠し、カスタマイズ可能な検出ルールをサポートし、その決定についての説明を提供する、LLM ベースの安全検出器である ShieldLM を提案します。
ShieldLM をトレーニングするために、14,387 のクエリと応答のペアで構成される大規模なバイリンガル データセットをコンパイルし、さまざまな安全基準に基づいて応答の安全性に注釈を付けます。
広範な実験を通じて、ShieldLM が 4 つのテスト セットにわたって強力なベースラインを上回り、顕著なカスタマイズ性と説明可能性を示していることを実証しました。
ShieldLM は、標準的な検出データセットで優れたパフォーマンスを発揮するだけでなく、高度な LLM の安全性評価ツールとして現実世界の状況でも効果的であることが示されています。
私たちは、さまざまな安全基準の下で正確かつ説明可能な安全検出をサポートするために \url{https://github.com/thu-coai/ShieldLM} で ShieldLM をリリースし、LLM の安全性を強化する継続的な取り組みに貢献します。

要約(オリジナル)

The safety of Large Language Models (LLMs) has gained increasing attention in recent years, but there still lacks a comprehensive approach for detecting safety issues within LLMs’ responses in an aligned, customizable and explainable manner. In this paper, we propose ShieldLM, an LLM-based safety detector, which aligns with general human safety standards, supports customizable detection rules, and provides explanations for its decisions. To train ShieldLM, we compile a large bilingual dataset comprising 14,387 query-response pairs, annotating the safety of responses based on various safety standards. Through extensive experiments, we demonstrate that ShieldLM surpasses strong baselines across four test sets, showcasing remarkable customizability and explainability. Besides performing well on standard detection datasets, ShieldLM has also been shown to be effective in real-world situations as a safety evaluator for advanced LLMs. We release ShieldLM at \url{https://github.com/thu-coai/ShieldLM} to support accurate and explainable safety detection under various safety standards, contributing to the ongoing efforts to enhance the safety of LLMs.

arxiv情報

著者 Zhexin Zhang,Yida Lu,Jingyuan Ma,Di Zhang,Rui Li,Pei Ke,Hao Sun,Lei Sha,Zhifang Sui,Hongning Wang,Minlie Huang
発行日 2024-02-26 09:43:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク