MR. Guard: Multilingual Reasoning Guardrail using Curriculum Learning

要約

大規模な言語モデル（LLM）は、侵入などの敵対的な攻撃の影響を受けやすく、有害または危険な行動を引き出すことができます。
この脆弱性は、多言語の安全性データがしばしば限られている多言語の設定では悪化しています。
したがって、多様な言語で安全でないコンテンツを検出およびフィルタリングできるガードレールを開発することは、実際のアプリケーションにLLMを展開するために重要です。
この作業では、推論で多言語のガードレールを構築するアプローチを提案します。
私たちの方法は、（1）文化的および言語的に微妙なバリアントを組み込んだ合成多言語データ生成、（2）監視された微調整、および（3）カリキュラム誘導グループの相対的な政策最適化（GRPO）フレームワークをさらに改善するカリキュラム誘導グループの相対的な政策最適化（GRPO）フレームワークで構成されています。
実験結果は、私たちの多言語のガードレールが、ドメイン内とドメイン外の言語の両方で最近のベースラインを常に上回ることを示しています。
Guardrailの多言語の推論能力により、多言語の説明を生成することができます。これは、多言語のコンテンツモデレーションにおける言語固有のリスクと曖昧さを理解するのに特に役立ちます。

要約(オリジナル)

Large Language Models (LLMs) are susceptible to adversarial attacks such as jailbreaking, which can elicit harmful or unsafe behaviors. This vulnerability is exacerbated in multilingual setting, where multilingual safety-aligned data are often limited. Thus, developing a guardrail capable of detecting and filtering unsafe content across diverse languages is critical for deploying LLMs in real-world applications. In this work, we propose an approach to build a multilingual guardrail with reasoning. Our method consists of: (1) synthetic multilingual data generation incorporating culturally and linguistically nuanced variants, (2) supervised fine-tuning, and (3) a curriculum-guided Group Relative Policy Optimization (GRPO) framework that further improves performance. Experimental results demonstrate that our multilingual guardrail consistently outperforms recent baselines across both in-domain and out-of-domain languages. The multilingual reasoning capability of our guardrail enables it to generate multilingual explanations, which are particularly useful for understanding language-specific risks and ambiguities in multilingual content moderation.

arxiv情報

著者	Yahan Yang,Soham Dan,Shuo Li,Dan Roth,Insup Lee
発行日	2025-04-21 17:15:06+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

MR. Guard: Multilingual Reasoning Guardrail using Curriculum Learning

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー