Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment

要約

大規模言語モデル (LLM) の最近の進歩により、複雑なタスクの実行において大きな進歩が見られました。
人間のフィードバックからの強化学習 (RLHF) は、LLM を人間の好みに合わせるのに効果的ですが、報酬モデリングでは偽の相関関係が発生しやすいです。
その結果、多くの場合、長さの偏り、お調子者、概念の偏り、差別などの偏りが生じ、真の因果関係を捉えるモデルの能力が妨げられます。
これに対処するために、因果推論を統合してこれらの偽の相関を軽減する、新しい因果報酬モデリング アプローチを提案します。
私たちの方法は、反事実の不変性を強制し、無関係な変数が変更された場合でも報酬予測の一貫性が保たれるようにします。
合成データセットと現実世界のデータセットの両方での実験を通じて、私たちのアプローチがさまざまな種類の偽相関を効果的に軽減し、LLM と人間の好みをより信頼性が高く公平に調整できることを示しました。
既存の RLHF ワークフローへのドロップイン機能強化として、因果報酬モデリングは、LLM 微調整の信頼性と公平性を向上させる実用的な方法を提供します。

要約(オリジナル)

Recent advances in large language models (LLMs) have demonstrated significant progress in performing complex tasks. While Reinforcement Learning from Human Feedback (RLHF) has been effective in aligning LLMs with human preferences, it is susceptible to spurious correlations in reward modeling. Consequently, it often introduces biases-such as length bias, sycophancy, conceptual bias, and discrimination that hinder the model’s ability to capture true causal relationships. To address this, we propose a novel causal reward modeling approach that integrates causal inference to mitigate these spurious correlations. Our method enforces counterfactual invariance, ensuring reward predictions remain consistent when irrelevant variables are altered. Through experiments on both synthetic and real-world datasets, we show that our approach mitigates various types of spurious correlations effectively, resulting in more reliable and fair alignment of LLMs with human preferences. As a drop-in enhancement to the existing RLHF workflow, our causal reward modeling provides a practical way to improve the trustworthiness and fairness of LLM finetuning.

arxiv情報

著者 Chaoqi Wang,Zhuokai Zhao,Yibo Jiang,Zhaorun Chen,Chen Zhu,Yuxin Chen,Jiayi Liu,Lizhu Zhang,Xiangjun Fan,Hao Ma,Sinong Wang
発行日 2025-01-16 16:00:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク