AEGIS: Online Adaptive AI Content Safety Moderation with Ensemble of LLM Experts

要約

Large Language Model (LLM) と生成 AI がさらに普及するにつれて、その使用に関連するコンテンツの安全性のリスクも増加します。
私たちは、広範な重要な安全分野を包括的にカバーする高品質のコンテンツ安全性データセットとベンチマークに顕著な欠陥があることを発見しました。
これに対処するために、13 の重大なリスクと 9 つの希薄なリスク カテゴリで構成される広範なコンテンツ安全性リスク分類を定義します。
さらに、分類法に準拠した人間による注釈を備えた、約 26,000 件の人間と LLM のインタラクション インスタンスの新しいデータセットである AEGISSAFETYDATASET をキュレートしています。
私たちはこのデータセットをコミュニティに公開して、さらに研究を進め、LLM モデルの安全性のベンチマークを支援する予定です。
データセットの有効性を実証するために、複数の LLM ベースの安全モデルを命令調整します。
私たちのモデル (AEGISSAFETYEXPERTS と名付けられました) が、最先端の LLM ベースの安全モデルや汎用 LLM を上回ったり競合したりするだけでなく、複数のジェイルブレイク攻撃カテゴリにわたって堅牢性を示すことも示します。
また、LLM アライメントフェーズ中に AEGISSAFETYDATASET を使用しても、MT Bench スコアにおけるアライメントされたモデルのパフォーマンスに悪影響が及ばないことも示します。
さらに、強力な理論的保証を備えた後悔のないオンライン適応フレームワークの新しいアプリケーションである AEGIS を提案し、導入時に LLM コンテンツ安全性の専門家集団と協力してコンテンツのモデレーションを実行します。

要約(オリジナル)

As Large Language Models (LLMs) and generative AI become more widespread, the content safety risks associated with their use also increase. We find a notable deficiency in high-quality content safety datasets and benchmarks that comprehensively cover a wide range of critical safety areas. To address this, we define a broad content safety risk taxonomy, comprising 13 critical risk and 9 sparse risk categories. Additionally, we curate AEGISSAFETYDATASET, a new dataset of approximately 26, 000 human-LLM interaction instances, complete with human annotations adhering to the taxonomy. We plan to release this dataset to the community to further research and to help benchmark LLM models for safety. To demonstrate the effectiveness of the dataset, we instruction-tune multiple LLM-based safety models. We show that our models (named AEGISSAFETYEXPERTS), not only surpass or perform competitively with the state-of-the-art LLM-based safety models and general purpose LLMs, but also exhibit robustness across multiple jail-break attack categories. We also show how using AEGISSAFETYDATASET during the LLM alignment phase does not negatively impact the performance of the aligned models on MT Bench scores. Furthermore, we propose AEGIS, a novel application of a no-regret online adaptation framework with strong theoretical guarantees, to perform content moderation with an ensemble of LLM content safety experts in deployment

arxiv情報

著者 Shaona Ghosh,Prasoon Varshney,Erick Galinkin,Christopher Parisien
発行日 2024-09-11 14:42:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.LG パーマリンク