MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety

要約

大規模な言語モデル(LLM)は、侵入などの敵対的な攻撃の影響を受けやすく、有害または危険な行動を引き出すことができます。
この脆弱性は、多言語の安全性データがしばしば制限される多言語設定では悪化しています。
したがって、多様な言語で安全でないコンテンツを検出およびフィルタリングできるガードレールを開発することは、実際のアプリケーションにLLMを展開するために重要です。
この作業では、迅速な分類の推論を備えた多言語ガードレールを紹介します。
私たちの方法は、(1)文化的および言語的に微妙なバリアントを組み込んだ合成多言語データ生成、(2)監視された微調整、および(3)カリキュラムベースのグループ相対政策最適化(GRPO)フレームワークをさらに改善するカリキュラムベースのグループ相対的な政策最適化(GRPO)フレームワークで構成されています。
実験結果は、多言語のガードレールであるMrguardが、ドメイン内およびドメイン外の言語の両方で最近のベースラインを15%以上上回ることを示しています。
また、プロンプトのコードスイッチングや低リソースの言語ディストラクタなど、多言語のバリエーションに対するMrGuardの堅牢性を評価し、これらの困難な条件下で安全判断を維持することを実証します。
Guardrailの多言語の推論能力により、説明を生成できます。これは、多言語コンテンツの節度における言語固有のリスクと曖昧さを理解するのに特に役立ちます。

要約(オリジナル)

Large Language Models (LLMs) are susceptible to adversarial attacks such as jailbreaking, which can elicit harmful or unsafe behaviors. This vulnerability is exacerbated in multilingual settings, where multilingual safety-aligned data is often limited. Thus, developing a guardrail capable of detecting and filtering unsafe content across diverse languages is critical for deploying LLMs in real-world applications. In this work, we introduce a multilingual guardrail with reasoning for prompt classification. Our method consists of: (1) synthetic multilingual data generation incorporating culturally and linguistically nuanced variants, (2) supervised fine-tuning, and (3) a curriculum-based Group Relative Policy Optimization (GRPO) framework that further improves performance. Experimental results demonstrate that our multilingual guardrail, MrGuard, consistently outperforms recent baselines across both in-domain and out-of-domain languages by more than 15%. We also evaluate MrGuard’s robustness to multilingual variations, such as code-switching and low-resource language distractors in the prompt, and demonstrate that it preserves safety judgments under these challenging conditions. The multilingual reasoning capability of our guardrail enables it to generate explanations, which are particularly useful for understanding language-specific risks and ambiguities in multilingual content moderation.

arxiv情報

著者 Yahan Yang,Soham Dan,Shuo Li,Dan Roth,Insup Lee
発行日 2025-05-20 16:49:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク