MPO: Multilingual Safety Alignment via Reward Gap Optimization

要約

大規模な言語モデル（LLM）は、世界中のAIアプリケーションの中心になりつつあり、多様な言語コンテキスト全体で安全な展開を確保するために、堅牢な多言語安全アライメントが必要です。
RLHFやDPOなどの安全アライメントのための既存の選好学習方法は、主に単一言語であり、騒々しい多言語データと闘っています。
これらの制限に対処するために、多言語報酬ギャップ最適化（MPO）を導入します。これは、複数の言語の安全アライメントを改善するために、支配的な言語（英語）の適切に整合した安全能力を活用する新しいアプローチです。
MPOは、支配的な言語とターゲット言語の間の報酬ギャップの違いを直接最小限に抑え、優性言語の元の強みを維持しながら安全能力を効果的に転送します。
3つのLLMS、LLAMA-3.1、GEMMA-2、QWEN2.5の広範な実験は、一般的な多言語ユーティリティを分解することなく、多言語の安全アライメントにおけるMPOの有効性を検証します。

要約(オリジナル)

Large language models (LLMs) have become increasingly central to AI applications worldwide, necessitating robust multilingual safety alignment to ensure secure deployment across diverse linguistic contexts. Existing preference learning methods for safety alignment, such as RLHF and DPO, are primarily monolingual and struggle with noisy multilingual data. To address these limitations, we introduce Multilingual reward gaP Optimization (MPO), a novel approach that leverages the well-aligned safety capabilities of the dominant language (English) to improve safety alignment across multiple languages. MPO directly minimizes the reward gap difference between the dominant language and target languages, effectively transferring safety capabilities while preserving the original strengths of the dominant language. Extensive experiments on three LLMs, LLaMA-3.1, Gemma-2 and Qwen2.5, validate MPO’s efficacy in multilingual safety alignment without degrading general multilingual utility.

arxiv情報

著者	Weixiang Zhao,Yulin Hu,Yang Deng,Tongtong Wu,Wenxuan Zhang,Jiahe Guo,An Zhang,Yanyan Zhao,Bing Qin,Tat-Seng Chua,Ting Liu
発行日	2025-05-22 16:24:51+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

MPO: Multilingual Safety Alignment via Reward Gap Optimization

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー