要約
ShieldGemma は、Gemma2 に基づいて構築された LLM ベースの安全コンテンツ モデレーション モデルの包括的なスイートです。
これらのモデルは、ユーザー入力と LLM が生成した出力の両方において、主要な危害タイプ (露骨な性的コンテンツ、危険なコンテンツ、ハラスメント、ヘイトスピーチ) にわたる安全リスクの堅牢で最先端の予測を提供します。
公開ベンチマークと内部ベンチマークの両方で評価することにより、Llama Guard (公開ベンチマークで AU-PRC +10.8\%) や WildCard (+4.3\%) などの既存のモデルと比較して優れたパフォーマンスを実証しました。
さらに、さまざまな安全関連タスクやその他のタスクに適応できる、新しい LLM ベースのデータ キュレーション パイプラインを紹介します。
主に合成データでトレーニングされたモデルの強力な汎化パフォーマンスを示しました。
ShieldGemma をリリースすることで、私たちは研究コミュニティに貴重なリソースを提供し、LLM の安全性を向上させ、開発者にとってより効果的なコンテンツ モデレーション ソリューションの作成を可能にします。
要約(オリジナル)
We present ShieldGemma, a comprehensive suite of LLM-based safety content moderation models built upon Gemma2. These models provide robust, state-of-the-art predictions of safety risks across key harm types (sexually explicit, dangerous content, harassment, hate speech) in both user input and LLM-generated output. By evaluating on both public and internal benchmarks, we demonstrate superior performance compared to existing models, such as Llama Guard (+10.8\% AU-PRC on public benchmarks) and WildCard (+4.3\%). Additionally, we present a novel LLM-based data curation pipeline, adaptable to a variety of safety-related tasks and beyond. We have shown strong generalization performance for model trained mainly on synthetic data. By releasing ShieldGemma, we provide a valuable resource to the research community, advancing LLM safety and enabling the creation of more effective content moderation solutions for developers.
arxiv情報
著者 | Wenjun Zeng,Yuchi Liu,Ryan Mullins,Ludovic Peran,Joe Fernandez,Hamza Harkous,Karthik Narasimhan,Drew Proud,Piyush Kumar,Bhaktipriya Radharapu,Olivia Sturman,Oscar Wahltinez |
発行日 | 2024-07-31 17:48:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google