要約
カーネマンとトベルスキーの $\textit{プロスペクト理論}$ は、人間が確率変数を偏った、しかし明確に定義された方法で認識していることを示しています (1992)。
たとえば、人間は損失を嫌う性質があることはよく知られています。
私たちは、LLM を人間のフィードバックと調整するための目標には、これらのバイアスの多くが暗黙的に組み込まれていることを示します。クロスエントロピー最小化に対するこれらの目標 (例: DPO) の成功は、それらが $ と呼ばれる損失関数のファミリーに属していることに部分的に起因する可能性があります。
\textit{人間が認識できる損失}$ (HALO)。
ただし、これらの方法が人間に帰する効用関数は、プロスペクト理論の文献のものとは依然として異なります。
人間の効用のカーネマン・トベルスキーモデルを使用して、現在の方法のように選好の対数尤度を最大化するのではなく、世代の効用を直接最大化するHALOを提案します。
私たちはこのアプローチを KTO と呼び、出力が望ましいかどうかをバイナリ信号から学習するだけであるにもかかわらず、1B から 30B までのスケールでプリファレンスベースのメソッドのパフォーマンスと同等かそれを上回ります。
もっと広く言えば、私たちの研究は、普遍的に優れている HALO は存在しないことを示唆しています。
最良の損失は、特定の設定に最も適した誘導バイアスに依存しますが、これは見落とされがちな考慮事項です。
要約(オリジナル)
Kahneman & Tversky’s $\textit{prospect theory}$ tells us that humans perceive random variables in a biased but well-defined manner (1992); for example, humans are famously loss-averse. We show that objectives for aligning LLMs with human feedback implicitly incorporate many of these biases — the success of these objectives (e.g., DPO) over cross-entropy minimization can partly be ascribed to them belonging to a family of loss functions that we call $\textit{human-aware losses}$ (HALOs). However, the utility functions these methods attribute to humans still differ from those in the prospect theory literature. Using a Kahneman-Tversky model of human utility, we propose a HALO that directly maximizes the utility of generations instead of maximizing the log-likelihood of preferences, as current methods do. We call this approach KTO, and it matches or exceeds the performance of preference-based methods at scales from 1B to 30B, despite only learning from a binary signal of whether an output is desirable. More broadly, our work suggests that there is no one HALO that is universally superior; the best loss depends on the inductive biases most appropriate for a given setting, an oft-overlooked consideration.
arxiv情報
著者 | Kawin Ethayarajh,Winnie Xu,Niklas Muennighoff,Dan Jurafsky,Douwe Kiela |
発行日 | 2024-11-19 18:12:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google