Adaptive Decoding via Latent Preference Optimization

要約

言語モデルのデコード中、より高い温度のサンプリングを使用するとより創造的な応答が得られ、より低い温度の方が事実に忠実であることが知られています。
ただし、このようなモデルは一般に、すべての例とトークンにわたって単一の固定温度を使用して、創造的なタスクと事実を求めるタスクの両方を含む一般的な指示のフォローに適用されます。
この作業では、パフォーマンスを最適化するために、推論時にトークン レベルまたはサンプル レベルでサンプリング温度を動的に選択するためにモデルに追加されたレイヤーである適応デコーディングを導入します。
そのパラメーターを学習するために、温度の選択などの離散潜在変数をトレーニングするための一般的なアプローチである潜在嗜好最適化 (LPO) を導入します。
私たちの方法は、UltraFeedback、クリエイティブ ストーリー ライティング、GSM8K など、さまざまな温度を必要とするさまざまなタスクにわたって、すべての固定デコード温度よりも優れたパフォーマンスを発揮します。

要約(オリジナル)

During language model decoding, it is known that using higher temperature sampling gives more creative responses, while lower temperatures are more factually accurate. However, such models are commonly applied to general instruction following, which involves both creative and fact seeking tasks, using a single fixed temperature across all examples and tokens. In this work, we introduce Adaptive Decoding, a layer added to the model to select the sampling temperature dynamically at inference time, at either the token or example level, in order to optimize performance. To learn its parameters we introduce Latent Preference Optimization (LPO) a general approach to train discrete latent variables such as choices of temperature. Our method outperforms all fixed decoding temperatures across a range of tasks that require different temperatures, including UltraFeedback, Creative Story Writing, and GSM8K.

arxiv情報

著者 Shehzaad Dhuliawala,Ilia Kulikov,Ping Yu,Asli Celikyilmaz,Jason Weston,Sainbayar Sukhbaatar,Jack Lanchantin
発行日 2024-11-14 18:31:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク