要約
ヒューマンフィードバックによる強化学習 (RLHF) は、正確な報酬モデル (RM) から大きな恩恵を受けることが示されています。
ただし、報酬モデリングスキームに関する最近の研究は英語に偏っており、多言語対応における RLHF の適用可能性が制限されています。
この研究では、主に英語からさまざまな言語で訓練を受けた RM の言語を越えた転移を調査します。
私たちの実験結果は、英語 RM の強力なクロスリンガル転送を示しており、多言語 RewardBench の平均増加率 3 ~ 4% でターゲット言語 RM を上回っています。
さらに、表現の変化を通じたRMの言語を越えた移転を分析します。
最後に、既製の RM に関する広範な分析とともに、RM における言語を越えた転送が強化された多言語命令追従機能にどのように伝播するかを例示するために、多言語の調整を実行します。
コード、モデル、データを公開します。
要約(オリジナル)
Reinforcement learning with human feedback (RLHF) is shown to largely benefit from precise reward models (RMs). However, recent studies in reward modeling schemes are skewed towards English, limiting the applicability of RLHF in multilingual alignments. In this work, we investigate the cross-lingual transfer of RMs trained in diverse languages, primarily from English. Our experimental results demonstrate the strong cross-lingual transfer of English RMs, exceeding target language RMs by 3~4% average increase in Multilingual RewardBench. Furthermore, we analyze the cross-lingual transfer of RMs through the representation shifts. Finally, we perform multilingual alignment to exemplify how cross-lingual transfer in RM propagates to enhanced multilingual instruction-following capability, along with extensive analyses on off-the-shelf RMs. We release the code, model, and data.
arxiv情報
著者 | Jiwoo Hong,Noah Lee,Rodrigo Martínez-Castaño,César Rodríguez,James Thorne |
発行日 | 2024-10-23 17:00:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google