Jackpot! Alignment as a Maximal Lottery

要約

大規模な言語モデル(LLM)を人間の価値に合わせるための標準である人間のフィードバック(RLHF)からの強化学習は、多数派の好みを尊重するなど、直感的に望ましいプロパティを満たすことができないことが知られています{ge2024axioms}。
これらの問題を克服するために、RLHFの後任として\ emph {Maximal Lotteries}と呼ばれる確率的な社会的選択ルールを使用することを提案します。
アライメントテクニックのファミリー、すなわち、人間のフィードバック(NLHF)\ Cite {Munos2023Nash}とバリアントから学習するNASHは、最大宝くじの結果を近似していることを示しています。
提案された方法論は、多数派の好みをサポートし、優先データの非翻訳を処理する原則的な方法を提供し、無関係な代替品への堅牢性を提供するなど、標準のRLHFよりも堅実に好みを扱うときに発生する状況を処理することを実験的に確認します。
これにより、人間の価値をよりよく取り入れ、人間の意図を尊重するシステムが生じます。

要約(オリジナル)

Reinforcement Learning from Human Feedback (RLHF), the standard for aligning Large Language Models (LLMs) with human values, is known to fail to satisfy properties that are intuitively desirable, such as respecting the preferences of the majority \cite{ge2024axioms}. To overcome these issues, we propose the use of a probabilistic Social Choice rule called \emph{maximal lotteries} as a replacement for RLHF. We show that a family of alignment techniques, namely Nash Learning from Human Feedback (NLHF) \cite{munos2023nash} and variants, approximate maximal lottery outcomes and thus inherit its beneficial properties. We confirm experimentally that our proposed methodology handles situations that arise when working with preferences more robustly than standard RLHF, including supporting the preferences of the majority, providing principled ways of handling non-transitivities in the preference data, and robustness to irrelevant alternatives. This results in systems that better incorporate human values and respect human intentions.

arxiv情報

著者 Roberto-Rafael Maura-Rivero,Marc Lanctot,Francesco Visin,Kate Larson
発行日 2025-01-31 16:26:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, econ.TH パーマリンク