Legilimens: Practical and Unified Content Moderation for Large Language Model Services

要約

大規模言語モデル (LLM) によって生成された安全でないコンテンツが社会に与える影響を考慮すると、LLM サービスが安全基準に準拠していることを確認することは、LLM サービス プロバイダーにとって重要な懸念事項です。
一般的なコンテンツモデレーション方法は、単純なモデルは脆弱である一方、洗練されたモデルは過度の計算リソースを消費するという、有効性と効率のジレンマによって制限されます。
この論文では、コンテンツモデレーションではなく会話用に初期微調整を行ったにもかかわらず、チャット指向の LLM から概念的な特徴を抽出することで、効果的かつ効率的なコンテンツモデレーションを達成できることを初めて明らかにしました。
私たちは、有効性と効率性の両方を特徴とする、Legilimens という LLM サービス用の実用的で統一されたコンテンツ モデレーション フレームワークを提案します。
当社のレッドチームモデルベースのデータ拡張により、最先端のジェイルブレイクに対する Legilimens の堅牢性が強化されます。
さらに、他の手法と比較したレジリメンの費用対効果を理論的に分析するためのフレームワークを開発します。
私たちは、通常の敵対者と適応的な敵対者に対する Legilimen の有効性、効率性、および堅牢性を検証するために、5 つのホスト LLM、17 のデータセット、および 9 つの脱獄方法について広範な実験を実施しました。
Legilimens を商業ベースラインと学術ベースラインの両方と比較すると、Legilimens の優れたパフォーマンスが実証されています。
さらに、Legilimens が少数ショットのシナリオに適用でき、複数ラベルの分類タスクに拡張できることを確認します。

要約(オリジナル)

Given the societal impact of unsafe content generated by large language models (LLMs), ensuring that LLM services comply with safety standards is a crucial concern for LLM service providers. Common content moderation methods are limited by an effectiveness-and-efficiency dilemma, where simple models are fragile while sophisticated models consume excessive computational resources. In this paper, we reveal for the first time that effective and efficient content moderation can be achieved by extracting conceptual features from chat-oriented LLMs, despite their initial fine-tuning for conversation rather than content moderation. We propose a practical and unified content moderation framework for LLM services, named Legilimens, which features both effectiveness and efficiency. Our red-team model-based data augmentation enhances the robustness of Legilimens against state-of-the-art jailbreaking. Additionally, we develop a framework to theoretically analyze the cost-effectiveness of Legilimens compared to other methods. We have conducted extensive experiments on five host LLMs, seventeen datasets, and nine jailbreaking methods to verify the effectiveness, efficiency, and robustness of Legilimens against normal and adaptive adversaries. A comparison of Legilimens with both commercial and academic baselines demonstrates the superior performance of Legilimens. Furthermore, we confirm that Legilimens can be applied to few-shot scenarios and extended to multi-label classification tasks.

arxiv情報

著者 Jialin Wu,Jiangyi Deng,Shengyuan Pang,Yanjiao Chen,Jiayang Xu,Xinfeng Li,Wenyuan Xu
発行日 2024-09-05 15:50:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク