要約
大規模な言語モデル(LLMS)の急速な進歩により、特に安全でない違法な内容を検出する際に、責任ある使用を確実にするためのガードレールモデルの必要性が高まりました。
英語には実質的な安全データが存在しますが、多言語のガードレールモデリングは、他の言語でのオープンソースの安全データが不足しているため、既知のままです。
このギャップに対処するために、新しい2プレイヤー強化学習(RL)フレームワークを提案します。そこでは、発電機とガードレールモデルが敵対的に共進化し、多言語ガードレールトレーニングのための高品質の合成データを作成します。
この相互作用を2人のプレーヤーゲームとして理論的に形式化し、ナッシュ平衡への収束を証明します。
経験的評価は、私たちのモデルが最先端のモデルよりも優れていることを示しており、英語のベンチマークでLlamaguard3(8b)よりも10%近くの改善を達成しながら、かなり小さいモデル(0.5b)を使用して4.5倍高速であることが示されています。
特に収集された実際のデータセットでの低リソース言語の不均衡に対処する際に、多言語の安全タスクの大幅な進歩を達成します。
アブレーション研究は、英語と他の言語間のオープンソースデータの不均衡を埋める上での合成データ生成の重要な役割を強調しています。
これらの調査結果は、合成データ生成に対するスケーラブルで効率的なアプローチを確立し、LLMの安全性を高めるために多言語ガードレールモデルを改善する方法を開催します。
コード、モデル、およびデータは、https://github.com/yihedeng9/duoguardでオープンソーリングされます。
要約(オリジナル)
The rapid advancement of large language models (LLMs) has increased the need for guardrail models to ensure responsible use, particularly in detecting unsafe and illegal content. While substantial safety data exist in English, multilingual guardrail modeling remains underexplored due to the scarcity of open-source safety data in other languages. To address this gap, we propose a novel two-player Reinforcement Learning (RL) framework, where a generator and a guardrail model co-evolve adversarially to produce high-quality synthetic data for multilingual guardrail training. We theoretically formalize this interaction as a two-player game, proving convergence to a Nash equilibrium. Empirical evaluations show that our model \ours outperforms state-of-the-art models, achieving nearly 10% improvement over LlamaGuard3 (8B) on English benchmarks while being 4.5x faster at inference with a significantly smaller model (0.5B). We achieve substantial advancements in multilingual safety tasks, particularly in addressing the imbalance for lower-resource languages in a collected real dataset. Ablation studies emphasize the critical role of synthetic data generation in bridging the imbalance in open-source data between English and other languages. These findings establish a scalable and efficient approach to synthetic data generation, paving the way for improved multilingual guardrail models to enhance LLM safety. Code, model, and data will be open-sourced at https://github.com/yihedeng9/DuoGuard.
arxiv情報
著者 | Yihe Deng,Yu Yang,Junkai Zhang,Wei Wang,Bo Li |
発行日 | 2025-02-07 18:45:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google