Some things are more CRINGE than others: Preference Optimization with the Pairwise Cringe Loss

要約

専門家は通常、ペアごとの優先順位を使用して大規模な言語モデルを調整します。つまり、特定の入力に対して、応答 A というタイプの特定のラベルが応答 B よりも優先されます。
おそらくそれほど一般的ではありませんが、バイナリ フィードバック、つまり応答タイプ A が良いか悪いかのラベルを与えられたモデルをトレーニングするための方法も開発されています。
既存のパフォーマンスの高いバイナリ フィードバック手法である Cringe Loss (Adolphs et al., 2022) を、単純なソフト マージン拡張を使用してペアごとのプリファレンス設定に一般化する方法を示します。
ペアワイズ クリンジ ロスは実装が簡単でトレーニングも効率的で、AlpacaFarm ベンチマークでは PPO や DPO などの最先端の優先最適化アルゴリズムよりも優れたパフォーマンスを発揮することがわかりました。

要約(オリジナル)

Practitioners commonly align large language models using pairwise preferences, i.e., given labels of the type response A is preferred to response B for a given input. Perhaps less commonly, methods have also been developed for binary feedback, i.e. training models given labels of type response A is good or bad. We show how an existing performant binary feedback method, the Cringe Loss (Adolphs et al., 2022), can be generalized to the pairwise preference setting using a simple soft margin extension. Pairwise Cringe Loss is straightforward to implement and efficient to train, and we find it outperforms state-of-the-art preference optimization algorithms such as PPO and DPO on the AlpacaFarm benchmark.

arxiv情報

著者 Jing Xu,Andrew Lee,Sainbayar Sukhbaatar,Jason Weston
発行日 2023-12-27 18:53:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク