Aegis2.0: A Diverse AI Safety Dataset and Risks Taxonomy for Alignment of LLM Guardrails

要約

大規模言語モデル (LLM) と生成 AI がますます普及するにつれて、コンテンツの安全性に対する懸念も同時に高まっています。
現在、LLM 関連の安全性リスクの全範囲に対処し、商用アプリケーションに使用できる、人間による注釈が付けられた高品質のデータセットが明らかに不足しています。
このギャップを埋めるために、私たちは安全性リスクを分類するための包括的で適応可能な分類法を提案します。この分類法は、9 つ​​のきめ細かいサブカテゴリーに拡張された 12 のトップレベルの危険カテゴリーに構造化されています。
この分類法は、下流ユーザーの多様な要件を満たすように設計されており、さまざまな種類のリスクを管理するためのより詳細で柔軟なツールを提供します。
人間のアノテーションと複数の LLM の「陪審」システムを組み合わせて応答の安全性を評価するハイブリッド データ生成パイプラインを使用して、提案した分類法に従ってアノテーションが付けられた、人間と LLM のインタラクションの 34,248 サンプルの慎重に精選されたコレクションである Aegis 2.0 を取得します。

その有効性を検証するために、Aegis 2.0 でパラメータ効率の高い手法を使用してトレーニングされたいくつかの軽量モデルが、はるかに大規模な非商用データセットで完全に微調整された主要な安全モデルと同等のパフォーマンスを達成することを実証しました。
さらに、安全性とトピック追跡データを組み合わせた新しいトレーニング ブレンドを導入します。このアプローチにより、ガード モデルの適応性が向上し、推論中に定義された新しいリスク カテゴリにガード モデルを一般化できるようになります。
私たちは、LLM の安全ガードレールを支援するために、Aegis 2.0 のデータとモデルを研究コミュニティにオープンソース化する予定です。

要約(オリジナル)

As Large Language Models (LLMs) and generative AI become increasingly widespread, concerns about content safety have grown in parallel. Currently, there is a clear lack of high-quality, human-annotated datasets that address the full spectrum of LLM-related safety risks and are usable for commercial applications. To bridge this gap, we propose a comprehensive and adaptable taxonomy for categorizing safety risks, structured into 12 top-level hazard categories with an extension to 9 fine-grained subcategories. This taxonomy is designed to meet the diverse requirements of downstream users, offering more granular and flexible tools for managing various risk types. Using a hybrid data generation pipeline that combines human annotations with a multi-LLM ‘jury’ system to assess the safety of responses, we obtain Aegis 2.0, a carefully curated collection of 34,248 samples of human-LLM interactions, annotated according to our proposed taxonomy. To validate its effectiveness, we demonstrate that several lightweight models, trained using parameter-efficient techniques on Aegis 2.0, achieve performance competitive with leading safety models fully fine-tuned on much larger, non-commercial datasets. In addition, we introduce a novel training blend that combines safety with topic following data.This approach enhances the adaptability of guard models, enabling them to generalize to new risk categories defined during inference. We plan to open-source Aegis 2.0 data and models to the research community to aid in the safety guardrailing of LLMs.

arxiv情報

著者 Shaona Ghosh,Prasoon Varshney,Makesh Narsimhan Sreedhar,Aishwarya Padmakumar,Traian Rebedea,Jibin Rajan Varghese,Christopher Parisien
発行日 2025-01-15 18:37:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク