要約
KahnemanとTverskyの$textit{prospect theory}$は、人間が確率変数を偏った、しかしよく定義された方法で知覚することを教えてくれる(1992)。我々は、LLMを人間のフィードバックに整合させる目的が、これらのバイアスの多くを暗黙のうちに組み込んでいることを示す–これらの目的(例えばDPO)がクロスエントロピー最小化より成功するのは、我々が$textit{human-aware losses}$ (HALOs)と呼ぶ損失関数のファミリーに属していることが一因である。しかし、これらの手法が人間に帰属させる効用関数は、プロスペクト理論文献のものとは依然として異なる。我々は人間の効用に関するカーネマン-トヴェルスキーモデルを用いて、現在の手法のように選好の対数尤度を最大化するのではなく、世代の効用を直接最大化するHALOを提案する。このアプローチをKTOと呼び、出力が望ましいかどうかの二値信号から学習するだけであるにもかかわらず、1Bから30Bのスケールにおいて選好に基づく手法の性能に匹敵するか、それを上回る。より広く言えば、我々の研究は、普遍的に優れているHALOは存在しないことを示唆している。
要約(オリジナル)
Kahneman & Tversky’s $\textit{prospect theory}$ tells us that humans perceive random variables in a biased but well-defined manner (1992); for example, humans are famously loss-averse. We show that objectives for aligning LLMs with human feedback implicitly incorporate many of these biases — the success of these objectives (e.g., DPO) over cross-entropy minimization can partly be ascribed to them belonging to a family of loss functions that we call $\textit{human-aware losses}$ (HALOs). However, the utility functions these methods attribute to humans still differ from those in the prospect theory literature. Using a Kahneman-Tversky model of human utility, we propose a HALO that directly maximizes the utility of generations instead of maximizing the log-likelihood of preferences, as current methods do. We call this approach KTO, and it matches or exceeds the performance of preference-based methods at scales from 1B to 30B, despite only learning from a binary signal of whether an output is desirable. More broadly, our work suggests that there is no one HALO that is universally superior; the best loss depends on the inductive biases most appropriate for a given setting, an oft-overlooked consideration.
arxiv情報
著者 | Kawin Ethayarajh,Winnie Xu,Niklas Muennighoff,Dan Jurafsky,Douwe Kiela |
発行日 | 2024-09-03 07:41:51+00:00 |
arxivサイト | arxiv_id(pdf) |