Mapping Social Choice Theory to RLHF

要約

人間の好みをモデル行動に組み込むためにヒューマンフィードバックからの強化学習 (RLHF) を使用することの限界に関する最近の研究では、参照点として社会的選択理論が取り上げられることがよくあります。
社会選択理論による投票メカニズムなどの設定の分析は、意見の相違の中で人間の好みを集約する方法を情報提供できる技術的インフラストラクチャを提供します。
私たちは、社会的選択とRLHFの問題設定を分析し、それらの間の重要な違いを特定し、これらの違いが社会的選択におけるよく知られた技術的結果のRLHF解釈にどのように影響するかを議論します。

要約(オリジナル)

Recent work on the limitations of using reinforcement learning from human feedback (RLHF) to incorporate human preferences into model behavior often raises social choice theory as a reference point. Social choice theory’s analysis of settings such as voting mechanisms provides technical infrastructure that can inform how to aggregate human preferences amid disagreement. We analyze the problem settings of social choice and RLHF, identify key differences between them, and discuss how these differences may affect the RLHF interpretation of well-known technical results in social choice.

arxiv情報

著者 Jessica Dai,Eve Fleisig
発行日 2024-04-19 17:49:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY パーマリンク