Inference-time Alignment in Continuous Space

要約

推論時間に人間のフィードバックで大規模な言語モデルを調整することで、柔軟性により注目が高まります。
既存の方法は、報酬モデルを使用して検索のために基本ポリシーから複数の応答を生成することに依存しています。これは、個別の応答スペースで検索すると見なすことができます。
ただし、これらの方法は、基本ポリシーが弱い場合、または候補者セットが小さく、有効性が限られている場合に有益な候補者を探索するのに苦労しています。
このホワイトペーパーでは、この問題に対処するために、推論時間アライメントのためのシンプルで効果的なアルゴリズムである単純なエネルギー適応($ \ textbf {sea} $)を提案します。
個別のスペースを介した高価な検索とは対照的に、Seaは、連続潜在空間での勾配ベースのサンプリングを介して、基本ポリシーから最適なポリシーに直接元の応答を適合させます。
具体的には、SEAは、最適なポリシーによって定義された連続空間でのアクション上のエネルギー関数の反復最適化手順として推論を定式化し、シンプルで効果的なアライメントを可能にします。
たとえば、シンプルさにもかかわらず、Seaは、Advbenchで最大$ \ TextBF {77.51%} $と$ \ TextBF {16.36%} $の相対的な改善により、2番目に良いベースラインよりも優れています。
私たちのコードは、https://github.com/yuanyige/seaで公開されています

要約(オリジナル)

Aligning large language models with human feedback at inference time has received increasing attention due to its flexibility. Existing methods rely on generating multiple responses from the base policy for search using a reward model, which can be considered as searching in a discrete response space. However, these methods struggle to explore informative candidates when the base policy is weak or the candidate set is small, resulting in limited effectiveness. In this paper, to address this problem, we propose Simple Energy Adaptation ($\textbf{SEA}$), a simple yet effective algorithm for inference-time alignment. In contrast to expensive search over the discrete space, SEA directly adapts original responses from the base policy toward the optimal one via gradient-based sampling in continuous latent space. Specifically, SEA formulates inference as an iterative optimization procedure on an energy function over actions in the continuous space defined by the optimal policy, enabling simple and effective alignment. For instance, despite its simplicity, SEA outperforms the second-best baseline with a relative improvement of up to $ \textbf{77.51%}$ on AdvBench and $\textbf{16.36%}$ on MATH. Our code is publicly available at https://github.com/yuanyige/SEA

arxiv情報

著者 Yige Yuan,Teng Xiao,Li Yunfan,Bingbing Xu,Shuchang Tao,Yunqi Qiu,Huawei Shen,Xueqi Cheng
発行日 2025-05-26 14:58:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク